text-generation-inference 文件
文字生成推理
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
文字生成推理
文字生成推理 (Text Generation Inference, TGI) 是一個用於部署和服務大型語言模型 (LLM) 的工具包。TGI 為最受歡迎的開源 LLM(包括 Llama、Falcon、StarCoder、BLOOM、GPT-NeoX 和 T5)提供高效能的文字生成服務。
文字生成推理實現了許多最佳化和功能,例如:
- 簡單的啟動器,可為最流行的 LLM 提供服務
- 生產就緒(透過 Open Telemetry 進行分散式追蹤,Prometheus 指標)
- 張量並行,可在多個 GPU 上實現更快的推理
- 使用伺服器傳送事件 (SSE) 進行 token 流式傳輸
- 對傳入請求進行連續批處理,以提高總吞吐量
- 在最流行的架構上使用 Flash Attention 和 Paged Attention 最佳化 transformers 推理程式碼
- 使用 bitsandbytes 和 GPT-Q 進行量化
- Safetensors 權重載入
- 使用 A Watermark for Large Language Models 新增水印
- Logits 處理器(溫度縮放、top-p、top-k、重複懲罰)
- 停止序列
- 對數機率
- 微調支援:利用針對特定任務微調的模型,以實現更高的準確性和效能。
- 引導(Guidance):透過強制模型根據您自己預定義的輸出模式生成結構化輸出來實現函式呼叫和工具使用。
文字生成推理已被多個專案用於生產環境,例如:
- Hugging Chat,一個為 Open Assistant 和 Llama 等開放模型提供的開源介面
- OpenAssistant,一個開放的社群專案,致力於以開放的方式訓練 LLM
- nat.dev,一個探索和比較 LLM 的平臺。