歡迎來到 Hub 上的推理服務提供商 🔥

釋出於 2025 年 1 月 28 日
在 GitHub 上更新

今天,我們將在 Hub 的模型頁面上直接整合四家出色的無伺服器推理提供商——**fal、Replicate、Sambanova、Together AI**。它們還無縫整合到我們的客戶端 SDK(適用於 JS 和 Python)中,使得探索您最喜歡的提供商上執行的各種模型的無伺服器推理變得前所未有的容易。

Inference Providers

我們長期以來一直在 Hub 上託管無伺服器推理 API(我們在 2020 年夏天推出了 v1——哇,時間過得真快🤯)。雖然這使得輕鬆探索和原型設計成為可能,但我們已將核心價值主張細化為與社群協作、儲存、版本控制和分發大型資料集和模型。與此同時,無伺服器提供商蓬勃發展,Hugging Face 是時候透過一組出色的提供商提供對無伺服器推理的輕鬆統一訪問了。

正如我們與 AWS、Nvidia 等優秀合作伙伴合作,透過模型頁面的“部署”按鈕提供專用部署選項一樣,與下一代無伺服器推理提供商合作以實現以模型為中心的無伺服器推理是很自然的。

以下是這將實現的功能,以 DeepSeek-ai/DeepSeek-R1 為及時示例,該模型在過去幾天內聲名鵲起 🔥

SambaNova 聯合創始人兼執行長 Rodrigo Liang:“我們很高興與 Hugging Face 合作,以加速其推理 API。Hugging Face 開發者現在可以在各種最佳開源模型上獲得更快的推理速度。”

Replicate 創始設計師 Zeke Sikelianos:“Hugging Face 是開源模型權重的實際所在地,並且一直是使 AI 更易於世界訪問的關鍵參與者。我們在 Replicate 內部將 Hugging Face 用作我們首選的權重登錄檔,我們很榮幸能成為本次釋出中首批推理提供商之一。”

這僅僅是個開始,我們將在未來幾周內與社群一起在此基礎上繼續發展!

工作原理

在網站 UI 中

  1. 在您的使用者帳戶設定中,您可以
  • 為您已註冊的提供商設定您自己的 API 金鑰。否則,您仍然可以使用它們——您的請求將透過 HF 路由。
  • 按偏好順序排列提供商。這適用於模型頁面中的小部件和程式碼片段。
Inference Providers
  1. 正如我們提到的,呼叫推理 API 有兩種模式
  • 自定義金鑰(使用相應推理提供商的您自己的 API 金鑰,直接呼叫推理提供商);或
  • 透過 HF 路由(在這種情況下,您不需要提供商的令牌,費用將直接計入您的 HF 帳戶,而不是提供商的帳戶)
Inference Providers
  1. 模型頁面會展示第三方推理服務提供商(與當前模型相容的,並按使用者偏好排序)
Inference Providers

從客戶端 SDK

從 Python 使用 huggingface_hub

以下示例展示瞭如何使用 Together AI 作為推理提供商來使用 DeepSeek-R1。您可以使用 Hugging Face 令牌 透過 Hugging Face 進行自動路由,或者如果您有的話,可以使用您自己的 Together AI API 金鑰。

安裝 `huggingface_hub` v0.28.0 或更高版本(釋出說明)。

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="together",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)

messages = [
    {
        "role": "user",
        "content": "What is the capital of France?"
    }
]

completion = client.chat.completions.create(
    model="deepseek-ai/DeepSeek-R1", 
    messages=messages, 
    max_tokens=500
)

print(completion.choices[0].message)

注意:您也可以使用 OpenAI 客戶端庫來呼叫推理提供商;請參閱此處 DeepSeek 模型的示例

以下是如何使用在 fal.ai 上執行的 FLUX.1-dev 從文字提示生成影像:

from huggingface_hub import InferenceClient

client = InferenceClient(
    provider="fal-ai",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)

# output is a PIL.Image object
image = client.text_to_image(
    "Labrador in the style of Vermeer",
    model="black-forest-labs/FLUX.1-dev"
)

要切換到不同的提供商,您只需更改提供商名稱,其他所有內容都保持不變。

from huggingface_hub import InferenceClient

client = InferenceClient(
-	provider="fal-ai",
+	provider="replicate",
    api_key="xxxxxxxxxxxxxxxxxxxxxxxx"
)

從 JS 使用 @huggingface/inference

import { HfInference } from "@huggingface/inference";

const client = new HfInference("xxxxxxxxxxxxxxxxxxxxxxxx");

const chatCompletion = await client.chatCompletion({
    model: "deepseek-ai/DeepSeek-R1",
    messages: [
        {
            role: "user",
            content: "What is the capital of France?"
        }
    ],
    provider: "together",
    max_tokens: 500
});

console.log(chatCompletion.choices[0].message);

來自 HTTP 呼叫

我們將路由代理直接暴露在 huggingface.co 域名下,因此您可以直接呼叫它,這對於相容 OpenAI 的 API 非常有用。您可以將 URL 簡單地替換為基本 URL:`https://router.huggingface.co/{:provider}`。

以下是您如何透過 cURL 呼叫使用 Sambanova 作為推理提供商的 Llama-3.3-70B-Instruct。

curl 'https://router.huggingface.co/sambanova/v1/chat/completions' \
-H 'Authorization: Bearer xxxxxxxxxxxxxxxxxxxxxxxx' \
-H 'Content-Type: application/json' \
--data '{
    "model": "Llama-3.3-70B-Instruct",
    "messages": [
        {
            "role": "user",
            "content": "What is the capital of France?"
        }
    ],
    "max_tokens": 500,
    "stream": false
}'

賬單

對於直接請求,即當您使用推理提供商的金鑰時,您將由相應的提供商計費。例如,如果您使用 Together AI 金鑰,您將在 Together AI 賬戶上計費。

對於路由請求,即當您透過中心進行身份驗證時,您只需支付標準提供商 API 費率。我們不收取額外費用,我們只是直接轉嫁提供商成本。(將來,我們可能會與提供商合作伙伴建立收入分成協議。)

重要提示 ‼️ PRO 使用者每月可獲得價值 2 美元的推理額度。您可以在不同的提供商之間使用這些額度。🔥

訂閱 Hugging Face PRO 計劃,即可獲得推理額度、ZeroGPU、空間開發模式、20 倍更高的限制以及更多功能。

我們還為已登入的免費使用者提供帶有少量配額的免費推理,但如果可以的話,請升級到 PRO!

反饋與下一步

我們期待您的反饋!您可以使用此中心討論:https://huggingface.co/spaces/huggingface/HuggingDiscussions/discussions/49

社群

TypeError: InferenceClient.__init__() 收到意外的關鍵字引數 'provider'

·

嘗試更新到最新版本

啊,你教他們然後只賺 2 美元?
給 Mask 打電話🕺

我想創辦一家人工智慧公司,致力於健康人工智慧。誰想參與這個偉大的旅程。

·

從 DeepSeek 中提取 ✅

已刪除
此評論已被隱藏

我仍然對定價感到困惑。我想要使用的大多數模型都沒有 HF 推理選項,只有 Together AI。檢視我的配額,似乎我只有 2 萬積分用於 HF 推理。看來我需要為其他推理支付額外費用。如果是這樣的話,那麼 PRO 對我來說就沒有任何意義了。如果是這樣的話,我甚至不需要使用 HF。我可以直接使用推理提供商。其中一些可能提供透過 HF 無法獲得的折扣或特別優惠。例如,Sambanova 仍然免費。

97ca2b8f-da02-4a50-8368-b5dafdde89e8.jpeg

·

只使用臉部,將其替換到另一個穿著黑色西裝的男人的臉部。

那麼帶有小配額的免費推理到底有多少?

太棒了!!!

讓我們新增 https://nineteen.ai/
它擁有最快的推理速度 & 完全免費!

在路由模式下,使用企業令牌我收到“您已超出每月推理端點包含的積分。訂閱 PRO 可獲得 20 倍的每月配額。”

請將 Groq 模型新增到 Huggingface API。

它能與 LangChain 的 ChatHuggingFace 或 HuggingFaceEndpoint 配合使用嗎?

·
文章作者

我其實不知道,但我很想知道!

以前的 pro 提供了 20,000 個請求。現在沒有了。真可惜。

計費似乎過多且令人困惑……原以為這個網站能幫我構建我的機器人,但 Replit 似乎效果更好

這是一篇糟糕的文章!(抱歉!)您能更具體地說明一下計費嗎?

Hugging Face 團隊更新得不錯!我們肯定會使用其中一些提供商進行 Automatio.ai 整合。

繼續努力!

output-onlinegiftools-ezgif.com-resize.gif

關於 Hub 上的推理提供商的深刻見解!fal、Replicate、Sambanova 和 Together AI 無縫整合到 Hugging Face 的生態系統中,使無伺服器推理比以往任何時候都更容易訪問。

在研究過程中,我找到了關於 Hugging Face 模型與 RunPod 整合的資源,其中深入探討了 AI 模型設定、擴散工作流和 ComfyUI 安裝:https://mobisoftinfotech.com/resources/blog/flux-on-runpod-using-comfyui

很想聽聽您對這些新推理提供商在效能和可擴充套件性方面的比較看法!

很高興有推理提供商,讓人們可以輕鬆使用模型。我知道其他模型提供商也想與 Hugging Face 合作,為社群提供簡單、穩定且經濟的服務。他們如何將他們的 API 新增到 Hugging Face?有沒有相關的說明?謝謝。

這個新系統對使用者(我們/我)來說真的很糟糕。以前有 20 萬次 API 請求,現在連 5000 次都不到。已經達到最大使用量了。如果您打算給我們遠低於會員費用的信用,我將考慮不購買會員資格,只支付已使用的信用。那樣會便宜得多。現在我覺得我支付的費用是所提供服務價值的 4 倍多。

·

希望官方能考慮我們的想法。服務應該越來越好。目前 2 美元的價格實在太小氣了。

我認為這是一個糟糕的決定。我支付了 9 美元,卻只使用了 2 美元。以前我有 2 萬次的每日限額。在這個決定之後,我不會再購買專業版訂閱了。

·

希望官方能考慮我們的想法。服務應該越來越好。目前 2 美元的價格實在太小氣了。

bug:如果你關閉所有干擾提供商,它會繼續計算你需要支付的價格。

"此身份驗證方法無權代表使用者呼叫推理提供商"

我是不是用完了配額?

·

我也遇到了同樣的問題。您找到解決方案了嗎?

我收到令牌 403 意外錯誤:403 Forbidden:此身份驗證方法無權代表使用者 XXX 呼叫推理提供商。

Screenshot 2025-03-24 103849.png

Screenshot 2025-03-24 104202.png

重現程式碼

from huggingface_hub import InferenceClient
client = InferenceClient()
client.list_deployed_models("text-generation-inference")

對於你們中的許多人來說,這一轉變可能看起來沒什麼大不了的……但實際上,這非常清楚地構成了對先前透過 HF 可獲得的準補貼計算量的絕大部分的突然削減。

儘管很少公開宣傳為平臺的核心功能,但這個昔日隨意鼓勵的計算儲備(即使只能透過特定區域,例如推理端點)多年來一直充當著一種虛幻的肥料,而且是關鍵的肥料,用於機器學習的採用、實驗和資源匱乏的開發——與 Google Colab 和 ChatGPT 等其他準補貼資源不相上下。而且,這種資源的普遍可用性很可能是開源機器學習(無論是實用性、普及度、安全性還是任何其他經常被提及的指標)持續發展/民主化的最重要先決條件,也是強制性催化劑,並在很大程度上推動了機器學習的更廣泛普及。

當然,儘管其定性顯而易見,但補貼資源的影響可能難以客觀地總結或直接量化。畢竟,它們構成了一系列基礎設施,其直接生產往往呈現出轉瞬即逝、社會化的形式——例如實踐、理解或價值觀——而且在具體的情況下,往往是非商業性的,例如開放模型、介面卡、愛好者貢獻、文章、帖子等。從財務和市場的角度來看,此類生產可能被認為只對給定平臺的資本化潛力具有切線價值,同時會增加沉重且有時無法預見的波動維護成本。

儘管如此(在機器學習領域,幾乎沒有比這更好的例子了),公共獲取以開放形式持續存在的補貼資源(非交易性、非公開貨幣化、非嚴格限制:就像所有公共資源、服務、圖書館、空間一樣)同時仍然是整個技術和研究領域經濟和社會文化潛力的關鍵先決條件,同時不斷刺激這種潛力最終可能採取的形式範圍和多樣性。

就在一年前,我還會熱切地向我認識的每個人宣揚 Huggingface 的優點:它不僅是人道主義和民主化機器學習正規化出現和繁榮的關鍵基石,而且是新社會形態的真實預示,這種社會形態最終可能超越異化、分離、差異、稀缺、一次性、遺忘、剝削以及所有其他相關的邏輯……這就是我曾經與 Huggingface 聯絡在一起的。然而,如今:當我想到 Huggingface 時,我的下一個念頭就是“2.00 美元”。

我知道要使資源或平臺獲得補貼,這些補貼必須來自某個地方。而確保可靠的資金來源可能是一個挑戰,尤其是在當下。儘管如此,我真的相信,對於 HF 來說,長期依賴來自使用者的標準交易/商業貨幣化,即使是為了彌補實際成本(更不用說從任何人身上榨取或為任何人榨取剩餘“價值”),都將是一個嚴重的錯誤。為了更好地發揮其在該領域的作用,HF 必須轉而更接近於以非營利組織的形式運營,從其他地方獲取無條件資金,前提是它可能始終處於“虧損”狀態,同時在整個領域的繁榮和活力中發揮關鍵作用。

是否有關於提供商的資訊(詳細成本、資料隱私資訊),使我能夠進行某種優先順序排序?HF 允許優先順序排序,但沒有提供我可以使用這些資訊進行優先順序排序的資訊。

只有 2 美元的積分?我還是省下我的 7 美元,直接用 openrouter 算了哈哈

·
文章作者

除了所有其他專業版功能!

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.