為 Hugging Face 使用者帶來無伺服器 GPU 推理

釋出於 2024 年 4 月 2 日
在 GitHub 上更新
更新(2024 年 11 月):此整合不再可用。請切換到 Hugging Face 推理 API、推理端點或其他部署選項來滿足您的 AI 模型需求。

今天,我們很高興地宣佈在 Hugging Face Hub 上推出一項新整合:**在 Cloudflare Workers AI 上部署**。在 Cloudflare Workers AI 上部署使得將開放模型作為無伺服器 API 使用變得簡單,它由部署在 Cloudflare 邊緣資料中心的最先進 GPU 提供支援。從今天開始,我們將 Hugging Face 上一些最流行的開放模型整合到 Cloudflare Workers AI 中,這些模型由我們的生產解決方案(如 文字生成推理)提供支援。

透過在 Cloudflare Workers AI 上部署,開發者可以構建強大的生成式 AI 應用程式,而無需管理 GPU 基礎設施和伺服器,並且運營成本非常低:只需為您使用的計算付費,而不是為閒置容量付費。

面向開發者的生成式 AI

這項新體驗擴充套件了我們去年宣佈的戰略合作,旨在簡化開放生成式 AI 模型的訪問和部署。開發者和組織面臨的主要問題之一是 GPU 稀缺性以及部署伺服器以開始構建的固定成本。在 Cloudflare Workers AI 上部署為這些挑戰提供了一個簡單、低成本的解決方案,透過按請求付費的定價模型,提供對流行的 Hugging Face 模型的無伺服器訪問。

讓我們看一個具體的例子。假設您開發了一個 RAG 應用程式,每天處理約 1000 個請求,使用 Meta Llama 2 7B,輸入 1k 令牌,輸出 100 令牌。LLM 推理的生產成本每天約為 1 美元。

cloudflare pricing

Cloudflare 首席技術官 John Graham-Cumming 表示:“我們很高興能如此迅速地將這項整合變為現實。將 Cloudflare 全球無伺服器 GPU 網路的強大能力與 Hugging Face 上最流行的開源模型結合起來,將為我們社群在全球範圍內的許多激動人心的創新開啟大門。”

工作原理

在 Cloudflare Workers AI 上使用 Hugging Face 模型非常簡單。下面,您將找到關於如何使用 Nous Research 最新模型 Hermes 2 Pro on Mistral 7B 的分步說明。

您可以在此Cloudflare Collection中找到所有可用的模型。

注意:您需要訪問Cloudflare 賬戶API 令牌

您可以在所有可用模型頁面上找到“在 Cloudflare 上部署”選項,包括 Llama、Gemma 或 Mistral 等模型。

model card

開啟“部署”選單,選擇“Cloudflare Workers AI”——這將開啟一個介面,其中包含如何使用此模型併發送請求的說明。

注意:如果您想要使用的模型沒有“Cloudflare Workers AI”選項,則表示目前不支援該模型。我們正在與 Cloudflare 合作,以擴充套件模型的可用性。您可以透過 api-enterprise@huggingface.co 聯絡我們提出您的請求。

inference snippet

該整合目前可以透過兩種方式使用:使用 Workers AI REST API 或直接在 Workers 中使用 Cloudflare AI SDK。選擇您喜歡的方式並將程式碼複製到您的環境中。使用 REST API 時,您需要確保定義了 ACCOUNT_IDAPI_TOKEN 變數。

就是這樣!現在您可以開始向託管在 Cloudflare Workers AI 上的 Hugging Face 模型傳送請求了。請確保使用模型所需的正確提示和模板。

我們才剛剛開始

我們很高興能與 Cloudflare 合作,讓開發者更容易使用 AI。我們將與 Cloudflare 團隊合作,為您提供更多模型和體驗!

社群

註冊登入評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.