optimum-tpu 文件

TGI 配置參考指南

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

TGI 配置參考指南

所需配置

所需環境變數

  • HF_TOKEN:HuggingFace 認證令牌

所需命令列引數

Docker 特定引數

  • --shm-size 16GB:共享記憶體分配
  • --privileged:啟用特權容器模式
  • --net host:使用主機網路模式

這些引數是執行 TPU 容器所必需的,以便 Docker 容器可以正確訪問 TPU 硬體。

TGI 特定引數

  • --model-id:從 HuggingFace Hub 載入的模型識別符號

這些引數由 TGI 和 optimum-TPU 用於配置伺服器行為。

可選配置

可選環境變數

  • JETSTREAM_PT_DISABLE:停用 Jetstream PyTorch 後端
  • QUANTIZATION:啟用 int8 量化
  • MAX_BATCH_SIZE:設定批處理大小,在 TPU 上是靜態的
  • LOG_LEVEL:設定日誌詳細程度(用於除錯)。可以設定為 info、debug 或逗號分隔的屬性列表,例如 text_generation_launcher,text_generation_router=debug
  • SKIP_WARMUP:跳過模型預熱階段

關於預熱的注意事項

  • TGI 執行預熱以編譯 TPU 操作以獲得最佳效能
  • 對於生產用途,切勿使用 SKIP_WARMUP=1;但是,您可以將引數用於除錯目的,以加速模型載入,但代價是模型推理速度較慢。

您可以在TGI 文件中檢視更多選項。並非所有引數都可能與 TPU 相容(例如,所有 CUDA 特定引數)。

TGI 提示:您可以將大多數引數作為 Docker 環境變數或 Docker 引數傳遞給 TGI。因此,您可以將 `--model-id google/gemma-2b-it` 或 `-e MODEL_ID=google/gemma-2b-it` 傳遞給 `docker run` 命令。

可選命令列引數

  • --max-input-length:最大輸入序列長度
  • --max-total-tokens:最大組合輸入/輸出令牌數
  • --max-batch-prefill-tokens:批處理的最大令牌數
  • --max-batch-total-tokens:批處理中的最大總令牌數

您可以在TGI 文件中檢視更多選項。並非所有引數都可能與 TPU 相容(例如,所有 CUDA 特定引數)。

Docker 要求

在容器中執行 TGI(推薦)時,應使用以下引數啟動容器:

  • 用於 TPU 訪問的特權模式
  • 共享記憶體分配(推薦 16GB)
  • 主機 IPC 設定

示例命令

這是一個展示所有主要配置選項的完整示例:

docker run -p 8080:80 \
    --shm-size 16GB \
    --privileged \
    --net host \
    -e QUANTIZATION=1 \
    -e MAX_BATCH_SIZE=2 \
    -e LOG_LEVEL=text_generation_router=debug \
    -v ~/hf_data:/data \
    -e HF_TOKEN=<your_hf_token_here> \
    ghcr.io/huggingface/optimum-tpu:v0.2.3-tgi \
    --model-id google/gemma-2b-it \
    --max-input-length 512 \
    --max-total-tokens 1024 \
    --max-batch-prefill-tokens 512 \
    --max-batch-total-tokens 1024
您需要替換使用 HuggingFace 訪問令牌,您可以在[此處](https://huggingface.co/settings/tokens)獲取。
如果您已經透過 `huggingface-cli login` 登入,則可以設定 HF_TOKEN=$(cat ~/.cache/huggingface/token) 以獲得更多便利。

其他資源

© . This site is unofficial and not affiliated with Hugging Face, Inc.