text-generation-inference 文件

文字生成推理

text-generation-inference

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

文字生成推理

文字生成推理 (Text Generation Inference, TGI) 是一個用於部署和服務大型語言模型 (LLM) 的工具包。TGI 為最受歡迎的開源 LLM（包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 和 T5）提供高效能的文字生成服務。

Text Generation Inference

文字生成推理實現了許多最佳化和功能，例如：

簡單的啟動器，可為最流行的 LLM 提供服務
生產就緒（透過 Open Telemetry 進行分散式追蹤，Prometheus 指標）
張量並行，可在多個 GPU 上實現更快的推理
使用伺服器傳送事件 (SSE) 進行 token 流式傳輸
對傳入請求進行連續批處理，以提高總吞吐量
在最流行的架構上使用 Flash Attention 和 Paged Attention 最佳化 transformers 推理程式碼
使用 bitsandbytes 和 GPT-Q 進行量化
Safetensors 權重載入
使用 A Watermark for Large Language Models 新增水印
Logits 處理器（溫度縮放、top-p、top-k、重複懲罰）
停止序列
對數機率
微調支援：利用針對特定任務微調的模型，以實現更高的準確性和效能。
引導（Guidance）：透過強制模型根據您自己預定義的輸出模式生成結構化輸出來實現函式呼叫和工具使用。

文字生成推理已被多個專案用於生產環境，例如：

Hugging Chat，一個為 Open Assistant 和 Llama 等開放模型提供的開源介面
OpenAssistant，一個開放的社群專案，致力於以開放的方式訓練 LLM
nat.dev，一個探索和比較 LLM 的平臺。

< > 在 GitHub 上更新

快速導覽→

© . This site is unofficial and not affiliated with Hugging Face, Inc.