快速開始

在本指南中，您將僅需幾分鐘即可使用推理端點部署生產就緒型 AI 模型。請確保您已使用 Hugging Face 帳戶登入推理端點 UI，並且已設定付款方式。如果尚未設定，請在您的賬單設定中快速新增有效的付款方式。

建立您的端點

首先導航到推理端點 UI，登入後，您應該會看到一個用於建立新推理端點的按鈕。單擊“新建”按鈕。

從那裡您將被引導到目錄。模型目錄包含流行的模型，這些模型已調整配置以實現一鍵部署。您可以按名稱、任務、硬體價格等進行篩選。

catalog

在此示例中，我們部署 meta-llama/Llama-3.2-3B-Instruct 模型。您可以透過在搜尋欄位中搜索 llama-3.2-3b 來找到它，然後單擊卡片進行部署。

llama

接下來，我們將選擇硬體和部署設定。由於這是一個目錄模型，所有預選選項都是非常好的預設值。因此在這種情況下，我們無需更改任何內容。如果您想深入瞭解不同設定的含義，可以檢視配置指南。

對於此模型，建議選擇 Nvidia L4。它非常適合我們的測試。效能良好且價格合理。另請注意，預設情況下，端點將縮減到零，這意味著它將在不活動 1 小時後變為閒置狀態。

現在您所需要做的就是點選“建立端點”🚀

config

現在我們的推理端點正在初始化，這通常需要大約 3-5 分鐘。如果您願意，可以允許瀏覽器通知，當端點達到執行狀態時，它會向您傳送提示。

init

一旦一切都啟動並執行，您將能夠看到

done

在遊樂場側面，您還可以複製+貼上呼叫模型的程式碼片段。透過單擊“應用令牌”，您將被引導到 Hugging Face，配置訪問令牌以能夠呼叫模型。預設情況下，所有推理端點都建立為私有端點，需要身份驗證，並且所有資料都使用 TLS/SSL 加密傳輸。

恭喜，您剛剛在推理端點中部署了一個生產就緒型 AI 模型 🔥

測試滿意後，您可以暫停推理端點，刪除它。或者，如果您不進行操作，它將在 1 小時後縮減為零。