Google Cloud TPU 現已對 Hugging Face 使用者開放

釋出於 2024 年 7 月 9 日

在 GitHub 上更新

贊

我們很高興分享一些好訊息！AI 開發者現在可以在 Hugging Face Inference Endpoints 和 Spaces 上使用 Google Cloud TPU 來加速他們的應用程式了！

對於可能不熟悉的使用者，TPU 是 Google 設計的定製 AI 硬體。它們以其經濟高效的擴充套件能力和在各種 AI 工作負載中的卓越效能而聞名。這種硬體在 Google 最新的一些創新中發揮了關鍵作用，包括 Gemma 2 開放模型的開發。我們很高興地宣佈，TPU 現在可用於 Inference Endpoints 和 Spaces。

這是我們持續合作的一大步，旨在為您提供最佳的 AI 專案工具和資源。我們非常期待看到您將利用這項新功能創造出什麼驚人的成果！

Hugging Face Inference Endpoints 對 TPU 的支援

Hugging Face Inference Endpoints 提供了一種無縫部署生成式 AI 模型的方式，只需點選幾下即可在專用、託管的基礎設施上，使用您選擇的雲提供商進行部署。從今天起，Google TPU v5e 已在 Inference Endpoints 上可用。選擇您想要部署的模型，選擇 Google Cloud Platform，選擇 us-west1，您就可以選擇 TPU 配置了。

我們有 3 種例項配置，未來還會更多

v5litepod-1 TPU v5e 配備 1 個核心和 16 GB 記憶體（1.375 美元/小時）
v5litepod-4 TPU v5e 配備 4 個核心和 64 GB 記憶體（5.50 美元/小時）
v5litepod-8 TPU v5e 配備 8 個核心和 128 GB 記憶體（11.00 美元/小時）

雖然您可以輕鬆使用 v5litepod-1 處理引數不超過 20 億的模型，但我們建議對更大的模型使用 v5litepod-4，以避免記憶體預算問題。配置越大，延遲越低。

我們與 Google 的產品和工程團隊攜手，很高興能將 TPU 的效能和成本效益帶給我們的 Hugging Face 社群。這次合作帶來了一些重要的進展：

我們建立了一個名為 Optimum TPU 的開源庫，它讓您在 Google TPU 上訓練和部署 Hugging Face 模型變得超級簡單。
Inference Endpoints 使用 Optimum TPU 和 Text Generation Inference (TGI) 在 TPU 上服務大型語言模型 (LLM)。
我們一直在努力支援各種模型架構。從今天開始，您只需點選幾下即可部署 Gemma、Llama 和 Mistral。（Optimum TPU 支援的模型）。

Hugging Face Spaces 對 TPU 的支援

Hugging Face Spaces 為開發者提供了一個平臺，可以快速建立、部署和共享 AI 驅動的演示和應用程式。我們很高興推出對 Hugging Face Spaces 新的 TPU v5e 例項支援。要將您的 Space 升級為在 TPU 上執行，請導航到 Space 中的“設定”按鈕，然後選擇所需的配置。