optimum-tpu 文件
如何在推理端點 (IE) 上部署模型以使用 TPU 進行服務
並獲得增強的文件體驗
開始使用
如何在推理端點 (IE) 上部署模型以使用 TPU 進行服務
推理端點 (IE) 是一種使用支援的模型在 TPU 上提供生成服務的解決方案。它不需要設定單獨的 GCP 帳戶,並且它將提供一些預配置設定,以使用 Optimum 的 TPU TGI 提供模型服務。
您可以在推理端點上部署我們任何支援的模型(請參閱支援的模型列表)。推理端點透過設定一個可根據需求自動擴充套件的 TGI 伺服器來提供安全的生產環境。
我們已經優化了 TPU 上的推理端點,以確保每個模型都能實現最佳效能。
1. 建立新端點
點選“新建端點”按鈕,在 https://endpoints.huggingface.co 開始操作。
2. 配置新端點
透過從 TPU 支援的模型列表中進行選擇來配置您的端點。注意:如果您選擇不受 TPU 支援的模型,則 TPU 選項將不可見。這是為了防止在 TPU 上啟動不受支援的模型而設計的。
讓我們以 google/gemma-2b-it 為例。TPU 選項卡是可選的,因此我們可以確認 TPU 相容性。請注意,此模型在 CPU 上不可用,如灰色顯示的 CPU 選項所示。
注意:我們自動為每個模型選擇最優的硬體和配置。對於 google/gemma-2b-it 這個較小的模型,我們選擇 1 晶片 TPU (TPU v5e-1),因為 16GB HBM(高頻寬記憶體)足以服務 2B 模型。這確保了成本效益的資源分配,避免了不必要的計算開銷。
我們廣泛測試和最佳化 TGI 配置,以最大限度地提高硬體效能。Max Input Length、Max Number of Tokens 和 Max Batch Prefill Tokens 等引數會根據每個模型的要求自動配置,並由 optimum-tpu 團隊手動設定。如果您將模型設定為 google/gemma-7b-it,您會看到“容器配置”中的這些值不同,並且針對 7b 模型進行了最佳化。
注意:您可以透過訪問介面中的環境變數部分來設定高階 TGI 功能,例如量化。例如,您可以設定“key:QUANTIZATION”和“value:1”來啟用量化。您可以在我們的高階 TGI 服務指南 (./advance-tgi-config) 中檢視所有這些高階 TGI 選項。
完成配置後,點選“建立端點”按鈕。
3. 使用您的端點
端點需要初始化,在此期間您可以監控日誌。在日誌部分,您將觀察到模型正在進行預熱以進行編譯以實現最佳效能。端點啟動通常需要 5 到 30 分鐘,具體取決於模型大小。此預熱期間會觸發多次編譯,以確保最佳的服務效能。
端點完成“初始化”後,您可以透過 GUI 或 API 查詢它。
使用 Playground 或 curl 命令查詢您的端點。
3.1 透過 Playground 查詢
使用 GUI 在 TPU 例項上編寫和執行查詢。
3.2 透過 curl 查詢
或者,使用 curl 命令查詢端點。
curl "https://{INSTANCE_ID}.{REGION}.gcp.endpoints.huggingface.cloud/v1/chat/completions" \
-X POST \
-H "Authorization: Bearer hf_XXXXX" \
-H "Content-Type: application/json" \
-d '{
"model": "tgi",
"messages": [
{
"role": "user",
"content": "What is deep learning?"
}
],
"max_tokens": 150,
"stream": true
}'
您需要將 {INSTANCE_ID} 和 {REGION} 替換為您自己部署中的值。
後續步驟
- 有多種方法可以與您的新推理端點進行互動。檢視推理端點文件以探索不同的選項:https://huggingface.co/docs/inference-endpoints/index
- 請查閱我們的 TGI 高階引數指南,瞭解您可以在推理端點上使用的TGI高階選項 (./howto/advanced-tgi-serving)
- 您可以在 Inference Endpoints TPU 目錄頁面上瀏覽完整的 TPU 相容模型列表。