推理端點(專用)文件
定價
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
定價
使用 🤗 推理端點可在專用基礎設施上輕鬆部署機器學習模型。建立端點時,您可以選擇要部署的例項型別,並根據每小時費率擴充套件模型。具有有效訂閱和信用卡資訊的 Hugging Face 帳戶可以使用 🤗 推理端點。在訂閱期結束時,當成功部署的端點(準備好提供服務)處於“正在初始化”和“正在執行”狀態時,使用者或組織帳戶將按使用的計算資源收費。
您可以在下方找到 🤗 推理端點所有可用例項的每小時定價,以及費用計算示例。雖然價格按小時顯示,但實際費用按分鐘計算。
CPU 例項
下表顯示了當前可用的 CPU 例項及其每小時定價。如果在應用程式中無法選擇例項型別,您需要請求配額才能使用它。
提供商 | 例項型別 | 例項大小 | 每小時費率 | vCPU | 記憶體 | 架構 |
---|---|---|---|---|---|---|
aws | intel-spr | x1 | $0.033 | 1 | 2 GB | Intel Sapphire Rapids |
aws | intel-spr | x2 | $0.067 | 2 | 4 GB | Intel Sapphire Rapids |
aws | intel-spr | x4 | $0.134 | 4 | 8 GB | Intel Sapphire Rapids |
aws | intel-spr | x8 | $0.268 | 8 | 16 GB | Intel Sapphire Rapids |
aws | intel-spr | x16 | $0.536 | 16 | 32 GB | Intel Sapphire Rapids |
azure | intel-xeon | x1 | $0.060 | 1 | 2 GB | Intel Xeon |
azure | intel-xeon | x2 | $0.120 | 2 | 4 GB | Intel Xeon |
azure | intel-xeon | x4 | $0.240 | 4 | 8 GB | Intel Xeon |
azure | intel-xeon | x8 | $0.480 | 8 | 16 GB | Intel Xeon |
gcp | intel-spr | x1 | $0.050 | 1 | 2 GB | Intel Sapphire Rapids |
gcp | intel-spr | x2 | $0.100 | 2 | 4 GB | Intel Sapphire Rapids |
gcp | intel-spr | x4 | $0.200 | 4 | 8 GB | Intel Sapphire Rapids |
gcp | intel-spr | x8 | $0.400 | 8 | 16 GB | Intel Sapphire Rapids |
aws | intel-icl | x1 | $0.032 | 1 | 2 GB | Intel Ice Lake - 從 2025 年 7 月起棄用 |
aws | intel-icl | x2 | $0.064 | 2 | 4 GB | Intel Ice Lake - 從 2025 年 7 月起棄用 |
aws | intel-icl | x4 | $0.128 | 4 | 8 GB | Intel Ice Lake - 從 2025 年 7 月起棄用 |
aws | intel-icl | x8 | $0.256 | 8 | 16 GB | Intel Ice Lake - 從 2025 年 7 月起棄用 |
GPU 例項
下表顯示了當前可用的 GPU 例項及其每小時定價。如果在應用程式中無法選擇例項型別,您需要請求配額才能使用它。
提供商 | 例項型別 | 例項大小 | 每小時費率 | GPU | 記憶體 | 架構 |
---|---|---|---|---|---|---|
aws | nvidia-t4 | x1 | $0.5 | 1 | 14 GB | NVIDIA T4 |
aws | nvidia-t4 | x4 | $3 | 4 | 56 GB | NVIDIA T4 |
aws | nvidia-l4 | x1 | $0.8 | 1 | 24 GB | NVIDIA L4 |
aws | nvidia-l4 | x4 | $3.8 | 4 | 96 GB | NVIDIA L4 |
aws | nvidia-a10g | x1 | $1 | 1 | 24 GB | NVIDIA A10G |
aws | nvidia-a10g | x4 | $5 | 4 | 96 GB | NVIDIA A10G |
aws | nvidia-l40s | x1 | $1.8 | 1 | 48 GB | NVIDIA L40S |
aws | nvidia-l40s | x4 | $8.3 | 4 | 192 GB | NVIDIA L40S |
aws | nvidia-l40s | x8 | $23.5 | 8 | 384 GB | NVIDIA L40S |
aws | nvidia-a100 | x1 | $2.5 | 1 | 80 GB | NVIDIA A100 |
aws | nvidia-a100 | x2 | $5 | 2 | 160 GB | NVIDIA A100 |
aws | nvidia-a100 | x4 | $10 | 4 | 320 GB | NVIDIA A100 |
aws | nvidia-a100 | x8 | $20 | 8 | 640 GB | NVIDIA A100 |
aws | nvidia-h200 | x1 | $5 | 1 | 141 GB | NVIDIA H200 |
aws | nvidia-h200 | x2 | $10 | 2 | 282 GB | NVIDIA H200 |
aws | nvidia-h200 | x4 | $20 | 4 | 564 GB | NVIDIA H200 |
aws | nvidia-h200 | x8 | $40 | 8 | 1128 GB | NVIDIA H200 |
gcp | nvidia-t4 | x1 | $0.5 | 1 | 16 GB | NVIDIA T4 |
gcp | nvidia-l4 | x1 | $0.7 | 1 | 24 GB | NVIDIA L4 |
gcp | nvidia-l4 | x4 | $3.8 | 4 | 96 GB | NVIDIA L4 |
gcp | nvidia-a100 | x1 | $3.6 | 1 | 80 GB | NVIDIA A100 |
gcp | nvidia-a100 | x2 | $7.2 | 2 | 160 GB | NVIDIA A100 |
gcp | nvidia-a100 | x4 | $14.4 | 4 | 320 GB | NVIDIA A100 |
gcp | nvidia-a100 | x8 | $28.8 | 8 | 640 GB | NVIDIA A100 |
gcp | nvidia-h100 | x1 | $10 | 1 | 80 GB | NVIDIA H100 |
gcp | nvidia-h100 | x2 | $20 | 2 | 160 GB | NVIDIA H100 |
gcp | nvidia-h100 | x4 | $40 | 4 | 320 GB | NVIDIA H100 |
gcp | nvidia-h100 | x8 | $80 | 8 | 640 GB | NVIDIA H100 |
加速器例項
下表顯示了當前可用的自定義加速器例項及其每小時定價。如果在應用程式中無法選擇例項型別,您需要請求配額才能使用它。
提供商 | 例項型別 | 例項大小 | 每小時費率 | 加速器 | 加速器記憶體 | RAM | 架構 |
---|---|---|---|---|---|---|---|
aws | inf2 | x1 | $0.75 | 1 | 32 GB | 14.5 GB | AWS Inferentia2 |
aws | inf2 | x12 | $12 | 12 | 384 GB | 760 GB | AWS Inferentia2 |
gcp | tpu | 1x1 | $1.2 | 1 | 16 GB | 44 GB | Google TPU v5e |
gcp | tpu | 2x2 | $4.75 | 4 | 64 GB | 186 GB | Google TPU v5e |
gcp | tpu | 2x4 | $9.5 | 8 | 128 GB | 380 GB | Google TPU v5e |
定價示例
以下定價場景示例展示瞭如何計算成本。您可以在上表中找到所有例項型別和大小的每小時費率。使用以下公式計算成本:
instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas))
基本端點
- AWS CPU intel-spr x2 (2 個 vCPU 4GB RAM)
- 自動擴縮(最少 1 個副本,最多 1 個副本)
每小時費用
instance hourly rate * (hours * # min replica) = hourly cost
$0.067/hr * (1hr * 1 replica) = $0.067/hr
每月費用
instance hourly rate * (hours * # min replica) = monthly cost
$0.064/hr * (730hr * 1 replica) = $46.72/month
高階端點
- AWS GPU 小型(1 個 GPU 14GB RAM)
- 自動擴縮(最少 1 個副本,最多 3 個副本),每小時流量高峰會將端點從 1 個副本擴縮到 3 個副本,持續 15 分鐘
每小時費用
instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas)) = hourly cost
$0.5/hr * ((1hr * 1 replica) + (0.25hr * 2 replicas)) = $0.75/hr
每月費用
instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas)) = monthly cost
$0.5/hr * ((730hr * 1 replica) + (182.5hr * 2 replicas)) = $547.5/month
配額
現在可在推理儀表板 https://ui.endpoints.huggingface.co 的“已用配額”下檢視列出的可用配額。
顯示的數字將引用已用例項數/可用例項配額。*暫停*的端點不會計入“已用”配額。*縮減到零*的端點將被計為“已用”配額——如果您想解鎖此配額,只需暫停縮減到零的端點即可。
如果您想增加配額分配,請聯絡我們。PRO 使用者和 Enterprise Hub 組織在請求時將獲得更高的配額。
< > 在 GitHub 上更新