如何在推理端點 (IE) 上部署模型以使用 TPU 進行服務

推理端點 (IE) 是一種使用支援的模型在 TPU 上提供生成服務的解決方案。它不需要設定單獨的 GCP 帳戶，並且它將提供一些預配置設定，以使用 Optimum 的 TPU TGI 提供模型服務。

您可以在推理端點上部署我們任何支援的模型（請參閱支援的模型列表）。推理端點透過設定一個可根據需求自動擴充套件的 TGI 伺服器來提供安全的生產環境。

我們已經優化了 TPU 上的推理端點，以確保每個模型都能實現最佳效能。

1. 建立新端點

點選“新建端點”按鈕，在 https://endpoints.huggingface.co 開始操作。

Create new endpoint

2. 配置新端點

透過從 TPU 支援的模型列表中進行選擇來配置您的端點。注意：如果您選擇不受 TPU 支援的模型，則 TPU 選項將不可見。這是為了防止在 TPU 上啟動不受支援的模型而設計的。

讓我們以 google/gemma-2b-it 為例。TPU 選項卡是可選的，因此我們可以確認 TPU 相容性。請注意，此模型在 CPU 上不可用，如灰色顯示的 CPU 選項所示。

Configure endpoint

注意：我們自動為每個模型選擇最優的硬體和配置。對於 google/gemma-2b-it 這個較小的模型，我們選擇 1 晶片 TPU (TPU v5e-1)，因為 16GB HBM（高頻寬記憶體）足以服務 2B 模型。這確保了成本效益的資源分配，避免了不必要的計算開銷。

我們廣泛測試和最佳化 TGI 配置，以最大限度地提高硬體效能。Max Input Length、Max Number of Tokens 和 Max Batch Prefill Tokens 等引數會根據每個模型的要求自動配置，並由 optimum-tpu 團隊手動設定。如果您將模型設定為 google/gemma-7b-it，您會看到“容器配置”中的這些值不同，並且針對 7b 模型進行了最佳化。

注意：您可以透過訪問介面中的環境變數部分來設定高階 TGI 功能，例如量化。例如，您可以設定“key:QUANTIZATION”和“value:1”來啟用量化。您可以在我們的高階 TGI 服務指南 (./advance-tgi-config) 中檢視所有這些高階 TGI 選項。

完成配置後，點選“建立端點”按鈕。

3. 使用您的端點

端點需要初始化，在此期間您可以監控日誌。在日誌部分，您將觀察到模型正在進行預熱以進行編譯以實現最佳效能。端點啟動通常需要 5 到 30 分鐘，具體取決於模型大小。此預熱期間會觸發多次編譯，以確保最佳的服務效能。

IE init

端點完成“初始化”後，您可以透過 GUI 或 API 查詢它。

IE running

使用 Playground 或 curl 命令查詢您的端點。

3.1 透過 Playground 查詢

使用 GUI 在 TPU 例項上編寫和執行查詢。

IE playground openAI

3.2 透過 curl 查詢

或者，使用 curl 命令查詢端點。

IE playground curl

curl "https://{INSTANCE_ID}.{REGION}.gcp.endpoints.huggingface.cloud/v1/chat/completions" \
-X POST \
-H "Authorization: Bearer hf_XXXXX" \
-H "Content-Type: application/json" \
-d '{
    "model": "tgi",
    "messages": [
        {
            "role": "user",
            "content": "What is deep learning?"
        }
    ],
    "max_tokens": 150,
    "stream": true
}'

您需要將 {INSTANCE_ID} 和 {REGION} 替換為您自己部署中的值。

後續步驟

有多種方法可以與您的新推理端點進行互動。檢視推理端點文件以探索不同的選項：https://huggingface.co/docs/inference-endpoints/index
請查閱我們的 TGI 高階引數指南，瞭解您可以在推理端點上使用的TGI高階選項 (./howto/advanced-tgi-serving)
您可以在 Inference Endpoints TPU 目錄頁面上瀏覽完整的 TPU 相容模型列表。