optimum-tpu 文件
TGI 配置參考指南
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
TGI 配置參考指南
所需配置
所需環境變數
HF_TOKEN
:HuggingFace 認證令牌
所需命令列引數
Docker 特定引數
--shm-size 16GB
:共享記憶體分配--privileged
:啟用特權容器模式--net host
:使用主機網路模式
這些引數是執行 TPU 容器所必需的,以便 Docker 容器可以正確訪問 TPU 硬體。
TGI 特定引數
--model-id
:從 HuggingFace Hub 載入的模型識別符號
這些引數由 TGI 和 optimum-TPU 用於配置伺服器行為。
可選配置
可選環境變數
JETSTREAM_PT_DISABLE
:停用 Jetstream PyTorch 後端QUANTIZATION
:啟用 int8 量化MAX_BATCH_SIZE
:設定批處理大小,在 TPU 上是靜態的LOG_LEVEL
:設定日誌詳細程度(用於除錯)。可以設定為 info、debug 或逗號分隔的屬性列表,例如 text_generation_launcher,text_generation_router=debugSKIP_WARMUP
:跳過模型預熱階段
關於預熱的注意事項
- TGI 執行預熱以編譯 TPU 操作以獲得最佳效能
- 對於生產用途,切勿使用
SKIP_WARMUP=1
;但是,您可以將引數用於除錯目的,以加速模型載入,但代價是模型推理速度較慢。
您可以在TGI 文件中檢視更多選項。並非所有引數都可能與 TPU 相容(例如,所有 CUDA 特定引數)。
TGI 提示:您可以將大多數引數作為 Docker 環境變數或 Docker 引數傳遞給 TGI。因此,您可以將 `--model-id google/gemma-2b-it` 或 `-e MODEL_ID=google/gemma-2b-it` 傳遞給 `docker run` 命令。
可選命令列引數
--max-input-length
:最大輸入序列長度--max-total-tokens
:最大組合輸入/輸出令牌數--max-batch-prefill-tokens
:批處理的最大令牌數--max-batch-total-tokens
:批處理中的最大總令牌數
您可以在TGI 文件中檢視更多選項。並非所有引數都可能與 TPU 相容(例如,所有 CUDA 特定引數)。
Docker 要求
在容器中執行 TGI(推薦)時,應使用以下引數啟動容器:
- 用於 TPU 訪問的特權模式
- 共享記憶體分配(推薦 16GB)
- 主機 IPC 設定
示例命令
這是一個展示所有主要配置選項的完整示例:
docker run -p 8080:80 \ --shm-size 16GB \ --privileged \ --net host \ -e QUANTIZATION=1 \ -e MAX_BATCH_SIZE=2 \ -e LOG_LEVEL=text_generation_router=debug \ -v ~/hf_data:/data \ -e HF_TOKEN=<your_hf_token_here> \ ghcr.io/huggingface/optimum-tpu:v0.2.3-tgi \ --model-id google/gemma-2b-it \ --max-input-length 512 \ --max-total-tokens 1024 \ --max-batch-prefill-tokens 512 \ --max-batch-total-tokens 1024
您需要替換使用 HuggingFace 訪問令牌,您可以在[此處](https://huggingface.co/settings/tokens)獲取。
如果您已經透過 `huggingface-cli login` 登入,則可以設定 HF_TOKEN=$(cat ~/.cache/huggingface/token) 以獲得更多便利。