Google Cloud TPU 現已對 Hugging Face 使用者開放

我們很高興分享一些好訊息!AI 開發者現在可以在 Hugging Face Inference Endpoints 和 Spaces 上使用 Google Cloud TPU 來加速他們的應用程式了!
對於可能不熟悉的使用者,TPU 是 Google 設計的定製 AI 硬體。它們以其經濟高效的擴充套件能力和在各種 AI 工作負載中的卓越效能而聞名。這種硬體在 Google 最新的一些創新中發揮了關鍵作用,包括 Gemma 2 開放模型的開發。我們很高興地宣佈,TPU 現在可用於 Inference Endpoints 和 Spaces。
這是我們持續合作的一大步,旨在為您提供最佳的 AI 專案工具和資源。我們非常期待看到您將利用這項新功能創造出什麼驚人的成果!
Hugging Face Inference Endpoints 對 TPU 的支援
Hugging Face Inference Endpoints 提供了一種無縫部署生成式 AI 模型的方式,只需點選幾下即可在專用、託管的基礎設施上,使用您選擇的雲提供商進行部署。從今天起,Google TPU v5e 已在 Inference Endpoints 上可用。選擇您想要部署的模型,選擇 Google Cloud Platform,選擇 us-west1,您就可以選擇 TPU 配置了。
我們有 3 種例項配置,未來還會更多
- v5litepod-1 TPU v5e 配備 1 個核心和 16 GB 記憶體(1.375 美元/小時)
- v5litepod-4 TPU v5e 配備 4 個核心和 64 GB 記憶體(5.50 美元/小時)
- v5litepod-8 TPU v5e 配備 8 個核心和 128 GB 記憶體(11.00 美元/小時)
雖然您可以輕鬆使用 v5litepod-1 處理引數不超過 20 億的模型,但我們建議對更大的模型使用 v5litepod-4,以避免記憶體預算問題。配置越大,延遲越低。
我們與 Google 的產品和工程團隊攜手,很高興能將 TPU 的效能和成本效益帶給我們的 Hugging Face 社群。這次合作帶來了一些重要的進展:
- 我們建立了一個名為 Optimum TPU 的開源庫,它讓您在 Google TPU 上訓練和部署 Hugging Face 模型變得超級簡單。
- Inference Endpoints 使用 Optimum TPU 和 Text Generation Inference (TGI) 在 TPU 上服務大型語言模型 (LLM)。
- 我們一直在努力支援各種模型架構。從今天開始,您只需點選幾下即可部署 Gemma、Llama 和 Mistral。(Optimum TPU 支援的模型)。
Hugging Face Spaces 對 TPU 的支援
Hugging Face Spaces 為開發者提供了一個平臺,可以快速建立、部署和共享 AI 驅動的演示和應用程式。我們很高興推出對 Hugging Face Spaces 新的 TPU v5e 例項支援。要將您的 Space 升級為在 TPU 上執行,請導航到 Space 中的“設定”按鈕,然後選擇所需的配置。
- v5litepod-1 TPU v5e 配備 1 個核心和 16 GB 記憶體(1.375 美元/小時)
- v5litepod-4 TPU v5e 配備 4 個核心和 64 GB 記憶體(5.50 美元/小時)
- v5litepod-8 TPU v5e 配備 8 個核心和 128 GB 記憶體(11.00 美元/小時)
快來在 Hugging Face Spaces 上構建並與社群分享令人驚歎的基於 TPU 的 ML 演示吧!
我們為與 Google 共同取得的成就感到自豪,迫不及待地想看到您如何在自己的專案中使用 TPU。