自動擴縮容

自動擴縮容允許您根據流量和加速器利用率動態調整執行模型的端點副本數量。透過利用自動擴縮容，您可以無縫處理不同的工作負載，同時最佳化成本並確保高可用性。

擴縮容標準

自動擴縮容過程是根據加速器的利用率指標觸發的。擴縮容標準因所使用的加速器型別而異

CPU 加速器：當所有副本的平均 CPU 利用率達到 80% 時，新增新的副本。
GPU 加速器：當所有副本在 1 分鐘內的平均 GPU 利用率達到 80% 時，新增新的副本。

需要注意的是，擴容每分鐘進行一次，縮容每 2 分鐘進行一次。這種頻率確保了自動擴縮容系統響應能力和穩定性的平衡，縮容後穩定期為 300 秒。

基於待處理請求的擴縮容（Beta 功能）

您可以將擴縮容標準更改為基於待處理請求而不是利用率指標。這目前是一個實驗性功能，我們建議在使用它進行生產工作負載之前進行測試。

待處理請求是指尚未收到 HTTP 狀態的請求，這意味著它們包括正在進行的請求和當前正在處理的請求。
預設情況下，如果過去 20 秒內每個副本的待處理請求超過 1.5 個，它將觸發自動擴縮容事件並向您的部署新增一個副本。
- 您可以在端點設定下調整此閾值以滿足您的特定要求。

有效自動擴縮容的注意事項

雖然自動擴縮容提供了方便的資源管理，但仍應牢記某些注意事項以確保其有效性

模型初始化時間：在新副本初始化期間，模型會被下載並載入到記憶體中。如果您的副本具有較長的初始化時間，自動擴縮容可能不會那麼有效。這是因為在此期間平均 GPU 利用率可能會低於閾值，從而觸發端點的自動縮容。
企業計劃控制：如果您有企業計劃，您將完全控制自動擴縮容定義。這允許您根據特定要求自定義擴縮容閾值、行為和標準。

縮容到 0

推理端點還支援縮容到 0，這意味著當沒有傳入流量時，將副本數量減少到 0。此功能基於請求模式而不是加速器利用率。當端點在 15 分鐘內沒有收到任何請求而保持空閒時，系統會自動將端點縮容到 0 個副本。要啟用此功能，請轉到“設定”頁面，您會找到一個名為“自動縮容到零”的部分。

縮容到 0 個副本有助於透過在不活動期間最小化資源使用來最佳化成本節約。但是，重要的是要意識到縮容到 0 意味著當端點收到新請求時會有冷啟動期。此外，當新副本初始化時，HTTP 伺服器將響應狀態碼 502 Bad Gateway。請注意，目前沒有針對傳入請求的排隊系統。因此，我們建議在客戶端開發您自己的請求佇列，並進行適當的錯誤處理，以最佳化吞吐量和延遲。

冷啟動期的持續時間因模型的尺寸而異。建議在啟用縮容到 0 和管理使用者期望時考慮潛在的延遲影響。

< > 在 GitHub 上更新

推理端點（專用）

自動擴縮容

擴縮容標準

基於待處理請求的擴縮容（Beta 功能）

有效自動擴縮容的注意事項

縮容到 0