推出 HUGS - 用開放模型擴充套件您的 AI
今天,我們激動地宣佈推出 Hugging Face 生成式 AI 服務,又稱 HUGS:這是一款最佳化過的零配置推理微服務,旨在簡化和加速使用開放模型進行 AI 應用開發。HUGS 基於開源 Hugging Face 技術構建,例如文字生成推理(Text Generation Inference)和 Transformers,提供在您自己的基礎設施中高效構建和擴充套件生成式 AI 應用的最佳解決方案。HUGS 經過最佳化,可在各種硬體加速器上執行開放模型,包括 NVIDIA GPU、AMD GPU,並將很快支援 AWS Inferentia 和 Google TPU。
開放模型的零配置最佳化推理
HUGS 簡化了開放模型在您自己的基礎設施和各種硬體上的最佳化部署。開發者和組織面臨的一個主要挑戰是,最佳化特定 GPU 或 AI 加速器上 LLM 的推理工作負載所涉及的工程複雜性。透過 HUGS,我們實現了最流行的開放 LLM 的最大吞吐量部署,且無需任何配置。HUGS 提供的每種部署配置都經過充分測試和維護,可即插即用。
HUGS 模型部署提供與 OpenAI 相容的 API,可用於即時替換基於模型提供商 API 構建的現有生成式 AI 應用程式。只需將您的程式碼指向 HUGS 部署,即可用您自己基礎設施中託管的開放模型為您的應用程式提供動力。
為何選擇 HUGS?
HUGS 提供了一種簡便的方法,可使用託管在您自己的基礎設施中的開放模型來構建 AI 應用程式,並具有以下優勢:
- 在您的基礎設施中:在您自己的安全環境中部署開放模型。讓您的資料和模型保持離線!
- 零配置部署:HUGS 透過零配置設定將部署時間從數週縮短到數分鐘,自動為您的 NVIDIA、AMD GPU 或 AI 加速器最佳化模型和服務配置。
- 硬體最佳化推理:HUGS 基於 Hugging Face 的文字生成推理(Text Generation Inference,TGI)構建,針對不同硬體設定的峰值效能進行了最佳化。
- 硬體靈活性:HUGS 可在各種加速器上執行,包括 NVIDIA GPU、AMD GPU,並將很快支援 AWS Inferentia 和 Google TPU。
- 模型靈活性:HUGS 相容各種開源模型,為您的 AI 應用程式提供靈活性和選擇。
- 行業標準 API:使用 Kubernetes 輕鬆部署 HUGS,其端點與 OpenAI API 相容,最大限度地減少程式碼更改。
- 企業發行版:HUGS 是 Hugging Face 開源技術的企業發行版,提供長期支援、嚴格測試和 SOC2 合規性。
- 企業合規性:透過包含必要的許可和服務條款來最大限度地降低合規風險。
我們為精選的企業中心客戶提供了 HUGS 的早期訪問許可權
HUGS 是一個巨大的省時工具,可以部署本地就緒的、效能良好的模型——在 HUGS 之前,這需要我們一週的時間,現在我們可以在不到 1 小時內完成。對於有主權 AI 需求的客戶來說,這是一個改變遊戲規則的工具!—— Henri Jouhaud,Polyconseil 首席技術官
我們嘗試使用 HUGS 在 GCP 上部署 Gemma 2,並使用 L4 GPU——我們無需費心庫、版本和引數,它開箱即用。HUGS 讓我們有信心可以擴充套件我們在內部對開放模型的使用!—— Ghislain Putois,Orange 研究工程師
工作原理
使用 HUGS 非常簡單。以下是您可以開始使用的方法:
注意:根據您選擇的部署方法,您需要訪問相應的訂閱或市場產品。
HUGS 的獲取途徑
HUGS 可透過多種渠道獲取:
- 雲服務提供商 (CSP) 市場:您可以在 Amazon Web Services (AWS) 和 Google Cloud Platform (GCP) 上找到並部署 HUGS。Microsoft Azure 支援即將推出。
- DigitalOcean:HUGS 在 DigitalOcean 中原生提供,作為一項新的 1-Click Models 服務,由 Hugging Face HUGS 和 GPU Droplets 提供支援。
- 企業中心:如果您的組織已升級到企業中心,請聯絡我們的銷售團隊以獲取 HUGS 訪問許可權。
有關每個平臺的具體部署說明,請參閱上面連結的相關文件。
定價
HUGS 提供按需定價,根據每個容器的正常執行時間計費,DigitalOcean 上的部署除外。
- AWS Marketplace 和 Google Cloud Platform Marketplace: 每個容器每小時 1 美元,無最低費用(計算使用費由 CSP 單獨計費)。在 AWS 上,您有 5 天的免費試用期,可以免費測試 HUGS。
- DigitalOcean: 由 Hugging Face HUGS 提供支援的 1-Click Models 在 DigitalOcean 上無需額外費用——常規 GPU Droplets 計算費用適用。
- 企業中心: 我們為企業中心組織提供自定義 HUGS 訪問許可權。請聯絡我們的銷售團隊以瞭解更多資訊。
執行推理
HUGS 基於文字生成推理(TGI),提供無縫的推理體驗。有關詳細說明和示例,請參閱 在 HUGS 上執行推理 指南。HUGS 利用與 OpenAI 相容的 Messages API,允許您使用熟悉的工具和庫,如 cURL、`huggingface_hub` SDK 和 `openai` SDK 來發送請求。
from huggingface_hub import InferenceClient
ENDPOINT_URL="REPLACE" # replace with your deployed url or IP
client = InferenceClient(base_url=ENDPOINT_URL, api_key="-")
chat_completion = client.chat.completions.create(
messages=[
{"role":"user","content":"What is Deep Learning?"},
],
temperature=0.7,
top_p=0.95,
max_tokens=128,
)
支援的模型和硬體
HUGS 支援不斷增長的開放模型和硬體平臺生態系統。請參閱我們的支援的模型和支援的硬體頁面,以獲取最新資訊。
我們今天釋出了 13 個流行的開放式 LLM:
- meta-llama/Llama-3.1-8B-Instruct
- meta-llama/Llama-3.1-70B-Instruct
- meta-llama/Llama-3.1-405B-Instruct-FP8
- NousResearch/Hermes-3-Llama-3.1-8B
- NousResearch/Hermes-3-Llama-3.1-70B
- NousResearch/Hermes-3-Llama-3.1-405B-FP8
- NousResearch/Nous-Hermes-2-Mixtral-8x7B-DPO
- mistralai/Mixtral-8x7B-Instruct-v0.1
- mistralai/Mistral-7B-Instruct-v0.3
- mistralai/Mixtral-8x22B-Instruct-v0.1
- google/gemma-2-27b-it
- google/gemma-2-9b-it
- Qwen/Qwen2.5-7B-Instruct
有關支援的模型與硬體的詳細檢視,請檢視文件。
即刻開始使用 HUGS
HUGS 使您能夠輕鬆利用開放模型的力量,在您自己的基礎設施中實現零配置的最佳化推理。透過 HUGS,您可以掌控您的 AI 應用程式,輕鬆將使用封閉模型構建的概念驗證應用程式轉換為您自己託管的開放模型應用程式。
立即開始,在 AWS、Google Cloud 或 DigitalOcean 上部署 HUGS!