關於推理端點

推理端點是一項託管服務，用於將您的 AI 模型部署到生產環境。基礎設施經過管理和配置，以便您可以專注於構建您的 AI 應用程式。

要將 AI 模型投入生產，您需要三個關鍵元件：

推理端點將所有這些元件整合到一項託管服務中。您從 Hub 中選擇模型，選擇推理引擎，然後推理端點負責其餘部分——調配基礎設施、部署模型，並透過簡單的 API 使其可訪問。這使您能夠專注於構建應用程式，而我們負責處理生產 AI 部署的複雜性。

about

推理引擎

為此，我們已將推理端點打造成部署高效能開源推理引擎的中心位置。

目前，我們原生支援：

對於原生支援的引擎，我們嘗試設定合理的預設值，公開最相關的配置設定，並與維護推理引擎的團隊密切合作，以確保它們針對生產效能進行最佳化。

如果您在此處找不到您喜歡的引擎，請透過 api-enterprise@huggingface.co 與我們聯絡。

當您部署推理端點時，在幕後，您選擇的推理引擎（如 vLLM、TGI、SGLang 等）被打包並作為預構建的 Docker 容器啟動。此容器包含推理引擎軟體、您選擇的模型權重和工件（直接從 Hugging Face Hub 下載），以及您指定的任何配置或環境變數。

我們管理這些容器的完整生命週期：啟動、停止、擴充套件（包括自動擴充套件和縮放到零），以及監控它們的健康狀況和效能。這種編排由我們完全為您管理，因此您無需擔心容器化、網路或雲資源管理的複雜性。

如需更多功能，請考慮訂閱團隊版或企業版。

它讓您的組織對訪問控制、專屬支援等擁有更多控制權。功能包括：