Google Cloud TPU 現已對 Hugging Face 使用者開放

釋出於 2024 年 7 月 9 日
在 GitHub 上更新

Google Cloud TPUs made available to Hugging Face users

我們很高興分享一些好訊息!AI 開發者現在可以在 Hugging Face Inference EndpointsSpaces 上使用 Google Cloud TPU 來加速他們的應用程式了!

對於可能不熟悉的使用者,TPU 是 Google 設計的定製 AI 硬體。它們以其經濟高效的擴充套件能力和在各種 AI 工作負載中的卓越效能而聞名。這種硬體在 Google 最新的一些創新中發揮了關鍵作用,包括 Gemma 2 開放模型的開發。我們很高興地宣佈,TPU 現在可用於 Inference Endpoints 和 Spaces。

這是我們持續合作的一大步,旨在為您提供最佳的 AI 專案工具和資源。我們非常期待看到您將利用這項新功能創造出什麼驚人的成果!

Hugging Face Inference Endpoints 對 TPU 的支援

Hugging Face Inference Endpoints 提供了一種無縫部署生成式 AI 模型的方式,只需點選幾下即可在專用、託管的基礎設施上,使用您選擇的雲提供商進行部署。從今天起,Google TPU v5e 已在 Inference Endpoints 上可用。選擇您想要部署的模型,選擇 Google Cloud Platform,選擇 us-west1,您就可以選擇 TPU 配置了。

我們有 3 種例項配置,未來還會更多

  • v5litepod-1 TPU v5e 配備 1 個核心和 16 GB 記憶體(1.375 美元/小時)
  • v5litepod-4 TPU v5e 配備 4 個核心和 64 GB 記憶體(5.50 美元/小時)
  • v5litepod-8 TPU v5e 配備 8 個核心和 128 GB 記憶體(11.00 美元/小時)

ie-tpu

雖然您可以輕鬆使用 v5litepod-1 處理引數不超過 20 億的模型,但我們建議對更大的模型使用 v5litepod-4,以避免記憶體預算問題。配置越大,延遲越低。

我們與 Google 的產品和工程團隊攜手,很高興能將 TPU 的效能和成本效益帶給我們的 Hugging Face 社群。這次合作帶來了一些重要的進展:

  1. 我們建立了一個名為 Optimum TPU 的開源庫,它讓您在 Google TPU 上訓練和部署 Hugging Face 模型變得超級簡單。
  2. Inference Endpoints 使用 Optimum TPU 和 Text Generation Inference (TGI) 在 TPU 上服務大型語言模型 (LLM)。
  3. 我們一直在努力支援各種模型架構。從今天開始,您只需點選幾下即可部署 GemmaLlamaMistral。(Optimum TPU 支援的模型)。

Hugging Face Spaces 對 TPU 的支援

Hugging Face Spaces 為開發者提供了一個平臺,可以快速建立、部署和共享 AI 驅動的演示和應用程式。我們很高興推出對 Hugging Face Spaces 新的 TPU v5e 例項支援。要將您的 Space 升級為在 TPU 上執行,請導航到 Space 中的“設定”按鈕,然後選擇所需的配置。

  • v5litepod-1 TPU v5e 配備 1 個核心和 16 GB 記憶體(1.375 美元/小時)
  • v5litepod-4 TPU v5e 配備 4 個核心和 64 GB 記憶體(5.50 美元/小時)
  • v5litepod-8 TPU v5e 配備 8 個核心和 128 GB 記憶體(11.00 美元/小時)

spaces-tpu

快來在 Hugging Face Spaces 上構建並與社群分享令人驚歎的基於 TPU 的 ML 演示吧!

我們為與 Google 共同取得的成就感到自豪,迫不及待地想看到您如何在自己的專案中使用 TPU。

社群

看來這個功能已經被移除了,或者還沒有公開新增。我在 Hugging Face 網站的推理端點中沒有看到任何可用的 TPU。

即使對於上面提到的、在推理端點中啟用了 Google TPU 的示例模型,我也沒有看到它有可用的 TPU:https://endpoints.huggingface.co/new?repository=meta-llama%2FMeta-Llama-3-8B&vendor=aws&region=us-east&accelerator=gpu&instance_id=aws-us-east-1-nvidia-l4-x1&task=text-generation&no_suggested_compute=true

如果此功能已刪除,那也沒關係。我想知道其價格/效能與其他可用選項相比如何。我可以直接使用 Google Cloud 訪問 Google 模型,或使用 Google Vertex AI 模型庫訪問其他模型。

文章作者

@appleCorePotatoes 的確如此,我們目前已暫停在推理端點上使用 TPU,此選項已不再可用,但您可以找到其他部署解決方案,並提供不同的價格/效能替代方案。

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.