optimum-tpu 文件

如何在推理端點 (IE) 上部署模型以使用 TPU 進行服務

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

如何在推理端點 (IE) 上部署模型以使用 TPU 進行服務

推理端點 (IE) 是一種使用支援的模型在 TPU 上提供生成服務的解決方案。它不需要設定單獨的 GCP 帳戶,並且它將提供一些預配置設定,以使用 Optimum 的 TPU TGI 提供模型服務。

您可以在推理端點上部署我們任何支援的模型(請參閱支援的模型列表)。推理端點透過設定一個可根據需求自動擴充套件的 TGI 伺服器來提供安全的生產環境。

我們已經優化了 TPU 上的推理端點,以確保每個模型都能實現最佳效能。

1. 建立新端點

點選“新建端點”按鈕,在 https://endpoints.huggingface.co 開始操作。

Create new endpoint

2. 配置新端點

透過從 TPU 支援的模型列表中進行選擇來配置您的端點。注意:如果您選擇不受 TPU 支援的模型,則 TPU 選項將不可見。這是為了防止在 TPU 上啟動不受支援的模型而設計的。

讓我們以 google/gemma-2b-it 為例。TPU 選項卡是可選的,因此我們可以確認 TPU 相容性。請注意,此模型在 CPU 上不可用,如灰色顯示的 CPU 選項所示。

Configure endpoint

注意:我們自動為每個模型選擇最優的硬體和配置。對於 google/gemma-2b-it 這個較小的模型,我們選擇 1 晶片 TPU (TPU v5e-1),因為 16GB HBM(高頻寬記憶體)足以服務 2B 模型。這確保了成本效益的資源分配,避免了不必要的計算開銷。

我們廣泛測試和最佳化 TGI 配置,以最大限度地提高硬體效能。Max Input Length、Max Number of Tokens 和 Max Batch Prefill Tokens 等引數會根據每個模型的要求自動配置,並由 optimum-tpu 團隊手動設定。如果您將模型設定為 google/gemma-7b-it,您會看到“容器配置”中的這些值不同,並且針對 7b 模型進行了最佳化。

注意:您可以透過訪問介面中的環境變數部分來設定高階 TGI 功能,例如量化。例如,您可以設定“key:QUANTIZATION”和“value:1”來啟用量化。您可以在我們的高階 TGI 服務指南 (./advance-tgi-config) 中檢視所有這些高階 TGI 選項。

完成配置後,點選“建立端點”按鈕。

3. 使用您的端點

端點需要初始化,在此期間您可以監控日誌。在日誌部分,您將觀察到模型正在進行預熱以進行編譯以實現最佳效能。端點啟動通常需要 5 到 30 分鐘,具體取決於模型大小。此預熱期間會觸發多次編譯,以確保最佳的服務效能。

IE init

端點完成“初始化”後,您可以透過 GUI 或 API 查詢它。

IE running

使用 Playground 或 curl 命令查詢您的端點。

3.1 透過 Playground 查詢

使用 GUI 在 TPU 例項上編寫和執行查詢。

IE playground openAI

3.2 透過 curl 查詢

或者,使用 curl 命令查詢端點。

IE playground curl

curl "https://{INSTANCE_ID}.{REGION}.gcp.endpoints.huggingface.cloud/v1/chat/completions" \
-X POST \
-H "Authorization: Bearer hf_XXXXX" \
-H "Content-Type: application/json" \
-d '{
    "model": "tgi",
    "messages": [
        {
            "role": "user",
            "content": "What is deep learning?"
        }
    ],
    "max_tokens": 150,
    "stream": true
}'

您需要將 {INSTANCE_ID} 和 {REGION} 替換為您自己部署中的值。

後續步驟

© . This site is unofficial and not affiliated with Hugging Face, Inc.