TGI 配置參考指南

所需配置

所需環境變數

HF_TOKEN：HuggingFace 認證令牌

所需命令列引數

Docker 特定引數

--shm-size 16GB：共享記憶體分配
--privileged：啟用特權容器模式
--net host：使用主機網路模式

這些引數是執行 TPU 容器所必需的，以便 Docker 容器可以正確訪問 TPU 硬體。

TGI 特定引數

--model-id：從 HuggingFace Hub 載入的模型識別符號

這些引數由 TGI 和 optimum-TPU 用於配置伺服器行為。

可選配置

可選環境變數

JETSTREAM_PT_DISABLE：停用 Jetstream PyTorch 後端
QUANTIZATION：啟用 int8 量化
MAX_BATCH_SIZE：設定批處理大小，在 TPU 上是靜態的
LOG_LEVEL：設定日誌詳細程度（用於除錯）。可以設定為 info、debug 或逗號分隔的屬性列表，例如 text_generation_launcher,text_generation_router=debug
SKIP_WARMUP：跳過模型預熱階段

關於預熱的注意事項

TGI 執行預熱以編譯 TPU 操作以獲得最佳效能
對於生產用途，切勿使用 SKIP_WARMUP=1；但是，您可以將引數用於除錯目的，以加速模型載入，但代價是模型推理速度較慢。

您可以在TGI 文件中檢視更多選項。並非所有引數都可能與 TPU 相容（例如，所有 CUDA 特定引數）。

TGI 提示：您可以將大多數引數作為 Docker 環境變數或 Docker 引數傳遞給 TGI。因此，您可以將 `--model-id google/gemma-2b-it` 或 `-e MODEL_ID=google/gemma-2b-it` 傳遞給 `docker run` 命令。

可選命令列引數

--max-input-length：最大輸入序列長度
--max-total-tokens：最大組合輸入/輸出令牌數
--max-batch-prefill-tokens：批處理的最大令牌數
--max-batch-total-tokens：批處理中的最大總令牌數

您可以在TGI 文件中檢視更多選項。並非所有引數都可能與 TPU 相容（例如，所有 CUDA 特定引數）。

Docker 要求

在容器中執行 TGI（推薦）時，應使用以下引數啟動容器：

用於 TPU 訪問的特權模式
共享記憶體分配（推薦 16GB）
主機 IPC 設定

示例命令

這是一個展示所有主要配置選項的完整示例：

docker run -p 8080:80 \
    --shm-size 16GB \
    --privileged \
    --net host \
    -e QUANTIZATION=1 \
    -e MAX_BATCH_SIZE=2 \
    -e LOG_LEVEL=text_generation_router=debug \
    -v ~/hf_data:/data \
    -e HF_TOKEN=<your_hf_token_here> \
    ghcr.io/huggingface/optimum-tpu:v0.2.3-tgi \
    --model-id google/gemma-2b-it \
    --max-input-length 512 \
    --max-total-tokens 1024 \
    --max-batch-prefill-tokens 512 \
    --max-batch-total-tokens 1024

您需要替換使用 HuggingFace 訪問令牌，您可以在[此處](https://huggingface.co/settings/tokens)獲取。

如果您已經透過 `huggingface-cli login` 登入，則可以設定 HF_TOKEN=$(cat ~/.cache/huggingface/token) 以獲得更多便利。

其他資源

TGI 文件