推理端點（專用）

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

常見問題

一般問題

我可以在哪些區域部署推理端點？

推理端點目前在 AWS 的 us-east-1（弗吉尼亞北部）和 eu-west-1（愛爾蘭）區域、Azure 的 eastus（弗吉尼亞）區域以及 GCP 的 us-east4（弗吉尼亞）區域可用。如果您需要在其他區域部署，請告知我們。

我可以訪問我的端點正在執行的例項嗎？

不可以，您無法訪問託管您的端點的例項。但是，如果您缺少資訊或需要更多關於端點執行機器的詳細資訊，請聯絡我們。

推理提供商和推理端點有什麼區別？

推理提供商是一種輕鬆探索和評估模型的解決方案。它是一個單一且一致的 API 推理服務，可以訪問託管大量 AI 模型的 Hugging Face 合作伙伴。推理端點是一種用於在託管基礎設施上部署模型的服務。

執行我的端點需要多少費用？

專用端點根據您執行端點的計算小時數和相關的例項型別計費。未來我們可能會增加負載均衡器和 Private Link 的使用費用。

如何監控我部署的端點？

您目前可以透過推理端點網頁應用程式監控您的端點，在該應用程式中您可以訪問端點日誌以及指標儀表板。

安全

傳輸到端點的資料是否加密？

是的，資料在傳輸過程中使用 TLS/SSL 加密。

我不小心洩露了我的令牌。我需要刪除我的端點嗎？

您可以在此處設定中使現有個人令牌失效並建立新令牌：https://huggingface.co/settings/tokens。請儘可能使用細粒度令牌！

我可以看到我的私有端點在我的 VPC 賬戶上執行嗎？

不能，當建立私有端點（透過 AWS PrivateLink 連線到您的 VPC 的 Hugging Face 推理端點）時，您只能在您的 VPC 中看到該端點可用的 ENI。

配置

如何擴充套件我的部署？

端點會自動為您擴充套件。您可以設定最小和最大副本數量，系統將根據您配置的擴充套件策略自動擴充套件和縮減副本。我們建議閱讀自動擴充套件部分以獲取更多資訊。

如果沒有更多請求，我的端點還會繼續執行嗎？

除非您允許縮放至零，否則您的推理端點將始終以自動擴充套件配置中定義的最小副本數量保持可用/執行狀態。

我想部署一個不在支援任務中的模型，這可能嗎？

是的，您可以從Hugging Face Hub部署任何儲存庫，即使您的任務/模型/框架不受開箱即用支援。為此，我們建議設定自定義容器。

如果我想部署到未列出的不同例項型別，該怎麼辦？

如果您認為您的模型在未列出的不同例項型別上表現會更好，請聯絡我們。

我需要向我的端點新增自定義環境變數（預設或機密）。如何操作？

現在可以在 UI 或透過 API 完成。

{
  "model": {
    "image": {
      "huggingface": {
        "env": { "var1": "value" }
      }
    },
}

推理引擎

我可以批次執行推理嗎？

在大多數情況下可以，但這取決於推理引擎。實際上，所有高效能推理引擎，如 vLLM、TGI、llama.cpp、SGLang 和 TEI 都支援批次處理，而推理工具包可能不支援。每個推理引擎也都有用於調整批次大小的配置，我們建議閱讀文件以瞭解如何最好地調整配置以滿足您的需求。

我正在為我的端點使用特定的推理引擎型別。是否有更多關於如何使用它的資訊？

是的！請檢視推理引擎部分，並檢視引擎自己的文件。

除錯

我從日誌中看到我的端點正在執行，但狀態卡在“初始化”

這通常意味著埠對映不正確。請確保您的應用程式正在監聽埠 80，並且 Docker 容器正在外部公開埠 80。如果您正在部署自定義容器，可以更改這些值，但請務必使其保持一致。

我的端點在部署開始或擴充套件時出現 500 響應

請確認您在應用程式中實現了健康檢查路由，當您的應用程式準備好處理請求時，該路由會返回狀態碼 200。否則，一旦容器啟動，您的應用程式就會被認為是準備就緒的，這可能會導致 500 錯誤。您可以在端點的容器配置中配置健康檢查路由。

您還可以將“X-Scale-Up-Timeout”標頭新增到您的請求中。這意味著當端點進行擴充套件時，代理將保留請求，直到副本準備就緒，或者在指定的秒數後超時。例如，“X-Scale-Up-Timeout: 600”。

我看到在“例項配置”下有一個選項可以選擇“下載模式”。這是什麼意思？

部署端點時，您可以選擇模型檔案的下載模式，以幫助限制下載檔案的數量。如果所選的下載模式不可行或與模型不相容，系統將不允許更改模式。

我有時在生產環境中執行的端點上遇到 503 錯誤。我該怎麼辦？

為了幫助緩解推理端點（需要高可用性）上的服務中斷，請確保至少使用 2 個副本，即最小副本數設定為 2。

< > 在 GitHub 上更新

←定價基礎→