text-generation-inference 文件

準備模型

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

準備模型

文字生成推理在多個方面改進了模型。

量化

TGI 支援 bits-and-bytesGPT-QAWQMarlinEETQEXL2fp8 量化。為了透過量化加速推理,只需將 quantize 標誌設定為 bitsandbytesgptqawqmarlinexl2eetqfp8,具體取決於您希望使用的量化技術。使用 GPT-Q 量化時,您需要指向此處的模型之一。同樣,使用 AWQ 量化時,您需要指向這些模型之一。要獲取有關量化的更多資訊,請參閱量化指南

RoPE 縮放

RoPE 縮放可用於在推理時增加模型的序列長度,而無需進行微調。要啟用 RoPE 縮放,只需透過 CLI 執行命令時傳遞 --rope-scaling--max-input-length--rope-factors 標誌。--rope-scaling 可以取值 lineardynamic。如果您的模型未針對更長的序列長度進行微調,請使用 dynamic--rope-factor 是預期最大序列長度與模型原始最大序列長度之間的比率。請確保傳遞 --max-input-length 以提供最大輸入長度進行擴充套件。

我們建議使用 dynamic RoPE 縮放。

Safetensors

Safetensors 是一種快速且安全的深度學習模型持久化格式,是張量並行所必需的。TGI 在底層支援 safetensors 模型載入。預設情況下,如果一個倉庫同時包含 safetensorspytorch 權重,TGI 總是會載入 safetensors。如果沒有 pytorch 權重,TGI 會將權重轉換為 safetensors 格式。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.