定價

或請求報價

使用 🤗 推理端點可在專用基礎設施上輕鬆部署機器學習模型。建立端點時，您可以選擇要部署的例項型別，並根據每小時費率擴充套件模型。具有有效訂閱和信用卡資訊的 Hugging Face 帳戶可以使用 🤗 推理端點。在訂閱期結束時，當成功部署的端點（準備好提供服務）處於“正在初始化”和“正在執行”狀態時，使用者或組織帳戶將按使用的計算資源收費。

您可以在下方找到 🤗 推理端點所有可用例項的每小時定價，以及費用計算示例。雖然價格按小時顯示，但實際費用按分鐘計算。

CPU 例項

下表顯示了當前可用的 CPU 例項及其每小時定價。如果在應用程式中無法選擇例項型別，您需要請求配額才能使用它。

提供商	例項型別	例項大小	每小時費率	vCPU	記憶體	架構
aws	intel-spr	x1	$0.033	1	2 GB	Intel Sapphire Rapids
aws	intel-spr	x2	$0.067	2	4 GB	Intel Sapphire Rapids
aws	intel-spr	x4	$0.134	4	8 GB	Intel Sapphire Rapids
aws	intel-spr	x8	$0.268	8	16 GB	Intel Sapphire Rapids
aws	intel-spr	x16	$0.536	16	32 GB	Intel Sapphire Rapids
azure	intel-xeon	x1	$0.060	1	2 GB	Intel Xeon
azure	intel-xeon	x2	$0.120	2	4 GB	Intel Xeon
azure	intel-xeon	x4	$0.240	4	8 GB	Intel Xeon
azure	intel-xeon	x8	$0.480	8	16 GB	Intel Xeon
gcp	intel-spr	x1	$0.050	1	2 GB	Intel Sapphire Rapids
gcp	intel-spr	x2	$0.100	2	4 GB	Intel Sapphire Rapids
gcp	intel-spr	x4	$0.200	4	8 GB	Intel Sapphire Rapids
gcp	intel-spr	x8	$0.400	8	16 GB	Intel Sapphire Rapids
aws	intel-icl	x1	$0.032	1	2 GB	Intel Ice Lake - 從 2025 年 7 月起棄用
aws	intel-icl	x2	$0.064	2	4 GB	Intel Ice Lake - 從 2025 年 7 月起棄用
aws	intel-icl	x4	$0.128	4	8 GB	Intel Ice Lake - 從 2025 年 7 月起棄用
aws	intel-icl	x8	$0.256	8	16 GB	Intel Ice Lake - 從 2025 年 7 月起棄用

GPU 例項

下表顯示了當前可用的 GPU 例項及其每小時定價。如果在應用程式中無法選擇例項型別，您需要請求配額才能使用它。

提供商	例項型別	例項大小	每小時費率	GPU	記憶體	架構
aws	nvidia-t4	x1	$0.5	1	14 GB	NVIDIA T4
aws	nvidia-t4	x4	$3	4	56 GB	NVIDIA T4
aws	nvidia-l4	x1	$0.8	1	24 GB	NVIDIA L4
aws	nvidia-l4	x4	$3.8	4	96 GB	NVIDIA L4
aws	nvidia-a10g	x1	$1	1	24 GB	NVIDIA A10G
aws	nvidia-a10g	x4	$5	4	96 GB	NVIDIA A10G
aws	nvidia-l40s	x1	$1.8	1	48 GB	NVIDIA L40S
aws	nvidia-l40s	x4	$8.3	4	192 GB	NVIDIA L40S
aws	nvidia-l40s	x8	$23.5	8	384 GB	NVIDIA L40S
aws	nvidia-a100	x1	$2.5	1	80 GB	NVIDIA A100
aws	nvidia-a100	x2	$5	2	160 GB	NVIDIA A100
aws	nvidia-a100	x4	$10	4	320 GB	NVIDIA A100
aws	nvidia-a100	x8	$20	8	640 GB	NVIDIA A100
aws	nvidia-h200	x1	$5	1	141 GB	NVIDIA H200
aws	nvidia-h200	x2	$10	2	282 GB	NVIDIA H200
aws	nvidia-h200	x4	$20	4	564 GB	NVIDIA H200
aws	nvidia-h200	x8	$40	8	1128 GB	NVIDIA H200
gcp	nvidia-t4	x1	$0.5	1	16 GB	NVIDIA T4
gcp	nvidia-l4	x1	$0.7	1	24 GB	NVIDIA L4
gcp	nvidia-l4	x4	$3.8	4	96 GB	NVIDIA L4
gcp	nvidia-a100	x1	$3.6	1	80 GB	NVIDIA A100
gcp	nvidia-a100	x2	$7.2	2	160 GB	NVIDIA A100
gcp	nvidia-a100	x4	$14.4	4	320 GB	NVIDIA A100
gcp	nvidia-a100	x8	$28.8	8	640 GB	NVIDIA A100
gcp	nvidia-h100	x1	$10	1	80 GB	NVIDIA H100
gcp	nvidia-h100	x2	$20	2	160 GB	NVIDIA H100
gcp	nvidia-h100	x4	$40	4	320 GB	NVIDIA H100
gcp	nvidia-h100	x8	$80	8	640 GB	NVIDIA H100

加速器例項

下表顯示了當前可用的自定義加速器例項及其每小時定價。如果在應用程式中無法選擇例項型別，您需要請求配額才能使用它。

提供商	例項型別	例項大小	每小時費率	加速器	加速器記憶體	RAM	架構
aws	inf2	x1	$0.75	1	32 GB	14.5 GB	AWS Inferentia2
aws	inf2	x12	$12	12	384 GB	760 GB	AWS Inferentia2
gcp	tpu	1x1	$1.2	1	16 GB	44 GB	Google TPU v5e
gcp	tpu	2x2	$4.75	4	64 GB	186 GB	Google TPU v5e
gcp	tpu	2x4	$9.5	8	128 GB	380 GB	Google TPU v5e

定價示例

以下定價場景示例展示瞭如何計算成本。您可以在上表中找到所有例項型別和大小的每小時費率。使用以下公式計算成本：

instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas))

基本端點

AWS CPU intel-spr x2 (2 個 vCPU 4GB RAM)
自動擴縮（最少 1 個副本，最多 1 個副本）

每小時費用

instance hourly rate * (hours * # min replica) = hourly cost
$0.067/hr * (1hr * 1 replica) = $0.067/hr

每月費用

instance hourly rate * (hours * # min replica) = monthly cost
$0.064/hr * (730hr * 1 replica) = $46.72/month

basic-chart

高階端點

AWS GPU 小型（1 個 GPU 14GB RAM）
自動擴縮（最少 1 個副本，最多 3 個副本），每小時流量高峰會將端點從 1 個副本擴縮到 3 個副本，持續 15 分鐘

每小時費用

instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas)) = hourly cost
$0.5/hr * ((1hr * 1 replica) + (0.25hr * 2 replicas)) = $0.75/hr

每月費用

instance hourly rate * ((hours * # min replica) + (scale-up hrs * # additional replicas)) = monthly cost
$0.5/hr * ((730hr * 1 replica) + (182.5hr * 2 replicas)) = $547.5/month

advanced-chart

配額

現在可在推理儀表板 https://ui.endpoints.huggingface.co 的“已用配額”下檢視列出的可用配額。

顯示的數字將引用已用例項數/可用例項配額。*暫停*的端點不會計入“已用”配額。*縮減到零*的端點將被計為“已用”配額——如果您想解鎖此配額，只需暫停縮減到零的端點即可。

如果您想增加配額分配，請聯絡我們。PRO 使用者和 Enterprise Hub 組織在請求時將獲得更高的配額。

< > 在 GitHub 上更新

推理端點（專用）