Hugging Face 和 NVIDIA NIM 的無伺服器推理
更新:此服務已於 2025 年 4 月 10 日起棄用且不再可用。作為替代方案,您應考慮推理提供商
今天,我們很高興地宣佈推出 Hugging Face NVIDIA NIM API(無伺服器),這是 Hugging Face Hub 上的一項新服務,可供企業版 Hub 組織使用。這項新服務使得使用 NVIDIA DGX Cloud 加速計算平臺上的開放模型進行推理變得容易,該平臺適用於推理服務。我們構建此解決方案是為了讓企業版 Hub 使用者能夠以無伺服器方式輕鬆訪問最新的 NVIDIA AI 技術,使用標準化 API 和 Hugging Face Hub 中的幾行程式碼,在流行的大型生成式 AI 模型(包括 Llama 和 Mistral)上執行推理。

NVIDIA NIM 支援的無伺服器推理
這項新體驗建立在我們與 NVIDIA 的合作基礎上,旨在簡化在 NVIDIA 加速計算平臺上訪問和使用開放式生成式 AI 模型。開發人員和組織面臨的主要挑戰之一是基礎設施的前期成本以及最佳化 LLM 推理工作負載的複雜性。透過 Hugging Face NVIDIA NIM API(無伺服器),我們為這些挑戰提供了一個簡單的解決方案,提供了對針對 NVIDIA 基礎設施最佳化的最先進開放式生成式 AI 模型的即時訪問,以及用於執行推理的簡單 API。按使用付費的定價模式確保您只為使用的請求時間付費,使其成為各種規模企業的經濟選擇。
NVIDIA NIM API(無伺服器)補充了 Hugging Face 上已有的 AI 訓練服務 Train on DGX Cloud。
工作原理
使用 Hugging Face 模型執行無伺服器推理從未如此簡單。以下是入門的分步指南:
注意:您需要訪問具有 Hugging Face 企業版 Hub 訂閱的組織才能執行推理。
在開始之前,請確保您滿足以下要求:
- 您是企業版 Hub 組織的成員。
- 您已為您的組織建立了細粒度令牌。按照以下步驟建立您的令牌。
建立細粒度令牌
細粒度令牌允許使用者建立具有特定許可權的令牌,以實現對資源和名稱空間的精確訪問控制。首先,前往Hugging Face 訪問令牌並點選“建立新令牌”,然後選擇“細粒度”。

輸入“令牌名稱”,並在“組織許可權”中選擇您的企業組織作為範圍,然後點選“建立令牌”。您無需選擇任何其他範圍。

現在,請務必儲存此令牌值,以便以後驗證您的請求。
查詢您的 NIM
您可以在支援的生成式 AI 模型的模型頁面上找到“NVIDIA NIM API(無伺服器)”。您可以在此NVIDIA NIM 集合和定價部分中找到所有支援的模型。
我們將使用 meta-llama/Meta-Llama-3-8B-Instruct
。訪問 meta-llama/Meta-Llama-3-8B-Instruct 模型卡,開啟“部署”選單,然後選擇“NVIDIA NIM API(無伺服器)”——這將開啟一個帶有預生成 Python、Javascript 或 Curl 程式碼片段的介面。

傳送您的請求
NVIDIA NIM API(無伺服器)已標準化為 OpenAI API。這允許您使用 openai
SDK 進行推理。將 YOUR_FINE_GRAINED_TOKEN_HERE
替換為您的細粒度令牌,即可執行推理。
from openai import OpenAI
client = OpenAI(
base_url="https://huggingface.co/api/integrations/dgx/v1",
api_key="YOUR_FINE_GRAINED_TOKEN_HERE"
)
chat_completion = client.chat.completions.create(
model="meta-llama/Meta-Llama-3-8B-Instruct",
messages=[
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Count to 500"}
],
stream=True,
max_tokens=1024
)
# Iterate and print stream
for message in chat_completion:
print(message.choices[0].delta.content, end='')
恭喜!🎉 您現在可以使用開放模型開始構建您的生成式 AI 應用程式了。🔥
NVIDIA NIM API(無伺服器)目前僅支援 chat.completions.create
和 models.list
API。我們正在努力擴充套件此功能,同時新增更多模型。models.list
可用於檢查當前可用於推理的模型。
models = client.models.list()
for m in models.data:
print(m.id)
支援的模型和定價
Hugging Face NVIDIA NIM API(無伺服器)的使用按每次請求的計算時間計費。我們專門使用 NVIDIA H100 Tensor Core GPU,價格為每小時 8.25 美元。為了更容易理解每次請求的定價,我們可以將其轉換為每秒的成本。
每小時 8.25 美元 = 每秒 0.0023 美元(四捨五入到小數點後 4 位)
每次請求的總成本將取決於模型大小、所需的 GPU 數量以及處理請求所需的時間。以下是當前模型產品、其 GPU 要求、典型響應時間以及每次請求的估計成本的細分:
模型 ID | NVIDIA H100 GPU 數量 | 典型響應時間(500 個輸入令牌,100 個輸出令牌) | 每次請求的估計成本 |
meta-llama/Meta-Llama-3-8B-Instruct | 1 | 1 秒 | $0.0023 |
meta-llama/Meta-Llama-3-70B-Instruct | 4 | 2 秒 | $0.0184 |
meta-llama/Meta-Llama-3.1-405B-Instruct-FP8 | 8 | 5 秒 | $0.0917 |
使用費用將計入您的企業版 Hub 組織當前的每月賬單週期。您可以隨時在企業版 Hub 組織的賬單設定中檢視當前和過去的使用情況。
支援的模型
使用 NVIDIA TensorRT-LLM 加速 AI 推理
我們很高興繼續與 NVIDIA 合作,推動 AI 推理效能和可訪問性的邊界。我們正在進行的工作的一個關鍵重點是將 NVIDIA TensorRT-LLM 庫整合到 Hugging Face 的文字生成推理(TGI)框架中。
我們將在不久的將來分享更多關於將 TGI 與 NVIDIA TensorRT-LLM 結合使用的詳細資訊、基準和最佳實踐。請繼續關注更多令人興奮的進展,我們將繼續擴大與 NVIDIA 的合作,為全球開發人員和組織帶來更強大的 AI 能力!