optimum-tpu 文件
TGI 配置參考指南
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
TGI 配置參考指南
所需配置
所需環境變數
HF_TOKEN:HuggingFace 認證令牌
所需命令列引數
Docker 特定引數
--shm-size 16GB:共享記憶體分配--privileged:啟用特權容器模式--net host:使用主機網路模式
這些引數是執行 TPU 容器所必需的,以便 Docker 容器可以正確訪問 TPU 硬體。
TGI 特定引數
--model-id:從 HuggingFace Hub 載入的模型識別符號
這些引數由 TGI 和 optimum-TPU 用於配置伺服器行為。
可選配置
可選環境變數
JETSTREAM_PT_DISABLE:停用 Jetstream PyTorch 後端QUANTIZATION:啟用 int8 量化MAX_BATCH_SIZE:設定批處理大小,在 TPU 上是靜態的LOG_LEVEL:設定日誌詳細程度(用於除錯)。可以設定為 info、debug 或逗號分隔的屬性列表,例如 text_generation_launcher,text_generation_router=debugSKIP_WARMUP:跳過模型預熱階段
關於預熱的注意事項
- TGI 執行預熱以編譯 TPU 操作以獲得最佳效能
- 對於生產用途,切勿使用
SKIP_WARMUP=1;但是,您可以將引數用於除錯目的,以加速模型載入,但代價是模型推理速度較慢。
您可以在TGI 文件中檢視更多選項。並非所有引數都可能與 TPU 相容(例如,所有 CUDA 特定引數)。
TGI 提示:您可以將大多數引數作為 Docker 環境變數或 Docker 引數傳遞給 TGI。因此,您可以將 `--model-id google/gemma-2b-it` 或 `-e MODEL_ID=google/gemma-2b-it` 傳遞給 `docker run` 命令。
可選命令列引數
--max-input-length:最大輸入序列長度--max-total-tokens:最大組合輸入/輸出令牌數--max-batch-prefill-tokens:批處理的最大令牌數--max-batch-total-tokens:批處理中的最大總令牌數
您可以在TGI 文件中檢視更多選項。並非所有引數都可能與 TPU 相容(例如,所有 CUDA 特定引數)。
Docker 要求
在容器中執行 TGI(推薦)時,應使用以下引數啟動容器:
- 用於 TPU 訪問的特權模式
- 共享記憶體分配(推薦 16GB)
- 主機 IPC 設定
示例命令
這是一個展示所有主要配置選項的完整示例:
docker run -p 8080:80 \
--shm-size 16GB \
--privileged \
--net host \
-e QUANTIZATION=1 \
-e MAX_BATCH_SIZE=2 \
-e LOG_LEVEL=text_generation_router=debug \
-v ~/hf_data:/data \
-e HF_TOKEN=<your_hf_token_here> \
ghcr.io/huggingface/optimum-tpu:v0.2.3-tgi \
--model-id google/gemma-2b-it \
--max-input-length 512 \
--max-total-tokens 1024 \
--max-batch-prefill-tokens 512 \
--max-batch-total-tokens 1024您需要替換使用 HuggingFace 訪問令牌,您可以在[此處](https://huggingface.co/settings/tokens)獲取。
如果您已經透過 `huggingface-cli login` 登入,則可以設定 HF_TOKEN=$(cat ~/.cache/huggingface/token) 以獲得更多便利。