配置

本節描述了建立新推理端點時可用的配置選項。介面的每個部分都允許對模型如何部署、訪問和擴充套件進行精細控制。

端點名稱、模型和組織

在左上角您可以

name-org-model

硬體配置部分允許您選擇用於託管模型的計算後端。您可以從三個主要雲提供商中進行選擇：

hardware

您還必須選擇加速器型別

此外，您可以使用下拉選單選擇部署區域（例如，美國東部）。選擇提供商、加速器和區域後，將顯示可用例項型別的列表。每個例項磁貼包括

您可以選擇一個磁貼來為您的部署選擇該例項型別。在選定區域中不相容或不可用的例項將變灰且不可點選。

本節確定誰可以訪問您部署的端點。可用選項包括

security

自動擴縮部分配置了您的模型執行的副本數量，以及系統是否在不活動期間縮減到零。有關更多資訊，我們建議閱讀自動擴縮的深入指南。

autoscaling

自動縮減到零：一個下拉選單讓您可以選擇系統在最後一次請求後應等待多長時間才能縮減到零。預設值為無活動 1 小時後。
副本數量:
- 最小值：保持執行的最小副本數量。請注意，啟用自動縮減到零要求將其設定為 0。
- 最大值：允許的最大副本數量（例如，1）
自動擴縮策略:
- 基於硬體使用率：例如，如果平均硬體利用率 (%) 超過此閾值超過 20 秒，將觸發擴縮事件。
- 待處理請求：如果待處理請求的平均數量超過此閾值超過 20 秒，將觸發擴縮事件。

本節允許您指定託管模型的容器行為方式。此設定取決於所選的推理引擎。有關配置詳細資訊，請閱讀推理引擎部分。

可以提供環境變數來自定義容器行為或傳遞秘密。

每個部分都允許您使用“新增”按鈕新增多個條目。

env-vars

您可以使用標籤（例如，用於測試）標記端點，以幫助跨環境或團隊組織和管理部署。在儀表板中，您將能夠根據這些標籤過濾和排序端點。標籤是透過“新增”按鈕新增的純文字標籤。

高階設定提供了對部署更精細的控制。

advanced