text-generation-inference 文件
準備模型
並獲得增強的文件體驗
開始使用
準備模型
文字生成推理在多個方面改進了模型。
量化
TGI 支援 bits-and-bytes、GPT-Q、AWQ、Marlin、EETQ、EXL2 和 fp8 量化。為了透過量化加速推理,只需將 quantize
標誌設定為 bitsandbytes
、gptq
、awq
、marlin
、exl2
、eetq
或 fp8
,具體取決於您希望使用的量化技術。使用 GPT-Q 量化時,您需要指向此處的模型之一。同樣,使用 AWQ 量化時,您需要指向這些模型之一。要獲取有關量化的更多資訊,請參閱量化指南
RoPE 縮放
RoPE 縮放可用於在推理時增加模型的序列長度,而無需進行微調。要啟用 RoPE 縮放,只需透過 CLI 執行命令時傳遞 --rope-scaling
、--max-input-length
和 --rope-factors
標誌。--rope-scaling
可以取值 linear
或 dynamic
。如果您的模型未針對更長的序列長度進行微調,請使用 dynamic
。--rope-factor
是預期最大序列長度與模型原始最大序列長度之間的比率。請確保傳遞 --max-input-length
以提供最大輸入長度進行擴充套件。
我們建議使用 dynamic
RoPE 縮放。
Safetensors
Safetensors 是一種快速且安全的深度學習模型持久化格式,是張量並行所必需的。TGI 在底層支援 safetensors
模型載入。預設情況下,如果一個倉庫同時包含 safetensors
和 pytorch
權重,TGI 總是會載入 safetensors
。如果沒有 pytorch
權重,TGI 會將權重轉換為 safetensors
格式。