歡迎來到 Hub 上的推理服務提供商 🔥
今天,我們將在 Hub 的模型頁面上直接整合四家出色的無伺服器推理提供商——**fal、Replicate、Sambanova、Together AI**。它們還無縫整合到我們的客戶端 SDK(適用於 JS 和 Python)中,使得探索您最喜歡的提供商上執行的各種模型的無伺服器推理變得前所未有的容易。

我們長期以來一直在 Hub 上託管無伺服器推理 API(我們在 2020 年夏天推出了 v1——哇,時間過得真快🤯)。雖然這使得輕鬆探索和原型設計成為可能,但我們已將核心價值主張細化為與社群協作、儲存、版本控制和分發大型資料集和模型。與此同時,無伺服器提供商蓬勃發展,Hugging Face 是時候透過一組出色的提供商提供對無伺服器推理的輕鬆統一訪問了。
正如我們與 AWS、Nvidia 等優秀合作伙伴合作,透過模型頁面的“部署”按鈕提供專用部署選項一樣,與下一代無伺服器推理提供商合作以實現以模型為中心的無伺服器推理是很自然的。
以下是這將實現的功能,以 DeepSeek-ai/DeepSeek-R1 為及時示例,該模型在過去幾天內聲名鵲起 🔥
SambaNova 聯合創始人兼執行長 Rodrigo Liang:“我們很高興與 Hugging Face 合作,以加速其推理 API。Hugging Face 開發者現在可以在各種最佳開源模型上獲得更快的推理速度。”
Replicate 創始設計師 Zeke Sikelianos:“Hugging Face 是開源模型權重的實際所在地,並且一直是使 AI 更易於世界訪問的關鍵參與者。我們在 Replicate 內部將 Hugging Face 用作我們首選的權重登錄檔,我們很榮幸能成為本次釋出中首批推理提供商之一。”
這僅僅是個開始,我們將在未來幾周內與社群一起在此基礎上繼續發展!
工作原理
在網站 UI 中
- 在您的使用者帳戶設定中,您可以
- 為您已註冊的提供商設定您自己的 API 金鑰。否則,您仍然可以使用它們——您的請求將透過 HF 路由。
- 按偏好順序排列提供商。這適用於模型頁面中的小部件和程式碼片段。

- 正如我們提到的,呼叫推理 API 有兩種模式
- 自定義金鑰(使用相應推理提供商的您自己的 API 金鑰,直接呼叫推理提供商);或
- 透過 HF 路由(在這種情況下,您不需要提供商的令牌,費用將直接計入您的 HF 帳戶,而不是提供商的帳戶)

- 模型頁面會展示第三方推理服務提供商(與當前模型相容的,並按使用者偏好排序)

從客戶端 SDK
從 Python 使用 huggingface_hub
以下示例展示瞭如何使用 Together AI 作為推理提供商來使用 DeepSeek-R1。您可以使用 Hugging Face 令牌 透過 Hugging Face 進行自動路由,或者如果您有的話,可以使用您自己的 Together AI API 金鑰。
安裝 `huggingface_hub` v0.28.0 或更高版本(釋出說明)。
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="together",
api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)
messages = [
{
"role": "user",
"content": "What is the capital of France?"
}
]
completion = client.chat.completions.create(
model="deepseek-ai/DeepSeek-R1",
messages=messages,
max_tokens=500
)
print(completion.choices[0].message)
注意:您也可以使用 OpenAI 客戶端庫來呼叫推理提供商;請參閱此處 DeepSeek 模型的示例。
以下是如何使用在 fal.ai 上執行的 FLUX.1-dev 從文字提示生成影像:
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="fal-ai",
api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)
# output is a PIL.Image object
image = client.text_to_image(
"Labrador in the style of Vermeer",
model="black-forest-labs/FLUX.1-dev"
)
要切換到不同的提供商,您只需更改提供商名稱,其他所有內容都保持不變。
from huggingface_hub import InferenceClient
client = InferenceClient(
- provider="fal-ai",
+ provider="replicate",
api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)
從 JS 使用 @huggingface/inference
import { HfInference } from "@huggingface/inference";
const client = new HfInference("xxxxxxxxxxxxxxxxxxxxxxxx");
const chatCompletion = await client.chatCompletion({
model: "deepseek-ai/DeepSeek-R1",
messages: [
{
role: "user",
content: "What is the capital of France?"
}
],
provider: "together",
max_tokens: 500
});
console.log(chatCompletion.choices[0].message);
來自 HTTP 呼叫
我們將路由代理直接暴露在 huggingface.co 域名下,因此您可以直接呼叫它,這對於相容 OpenAI 的 API 非常有用。您可以將 URL 簡單地替換為基本 URL:`https://router.huggingface.co/{:provider}`。
以下是您如何透過 cURL 呼叫使用 Sambanova 作為推理提供商的 Llama-3.3-70B-Instruct。
curl 'https://router.huggingface.co/sambanova/v1/chat/completions' \
-H 'Authorization: Bearer xxxxxxxxxxxxxxxxxxxxxxxx' \
-H 'Content-Type: application/json' \
--data '{
"model": "Llama-3.3-70B-Instruct",
"messages": [
{
"role": "user",
"content": "What is the capital of France?"
}
],
"max_tokens": 500,
"stream": false
}'
賬單
對於直接請求,即當您使用推理提供商的金鑰時,您將由相應的提供商計費。例如,如果您使用 Together AI 金鑰,您將在 Together AI 賬戶上計費。
對於路由請求,即當您透過中心進行身份驗證時,您只需支付標準提供商 API 費率。我們不收取額外費用,我們只是直接轉嫁提供商成本。(將來,我們可能會與提供商合作伙伴建立收入分成協議。)
重要提示 ‼️ PRO 使用者每月可獲得價值 2 美元的推理額度。您可以在不同的提供商之間使用這些額度。🔥
訂閱 Hugging Face PRO 計劃,即可獲得推理額度、ZeroGPU、空間開發模式、20 倍更高的限制以及更多功能。
我們還為已登入的免費使用者提供帶有少量配額的免費推理,但如果可以的話,請升級到 PRO!
反饋與下一步
我們期待您的反饋!您可以使用此中心討論:https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49