在 AWS Inferentia2 上部署來自 Hugging Face 的模型

釋出於 2024 年 5 月 22 日
在 GitHub 上更新

thumbnail

AWS Inferentia2 是 AWS 最新的機器學習晶片,可透過 Amazon Web Services 上的 Amazon EC2 Inf2 例項獲得。Inf2 例項專為 AI 工作負載而設計,可為生產環境的工作負載提供卓越的效能和價效比。

一年多來,我們一直與 AWS 的產品和工程團隊合作,致力於為 Hugging Face 使用者提供 AWS Trainium 和 Inferentia 晶片的效能和成本效益。我們的開源庫 optimum-neuron 使得在這些加速器上訓練和部署 Hugging Face 模型變得輕而易舉。您可以閱讀更多關於我們加速 Transformer 模型大型語言模型文字生成推理 (TGI) 的工作。

今天,我們正在將 Inferentia2 的強大能力直接、廣泛地提供給 Hugging Face Hub 使用者。

透過 Amazon SageMaker 在 AWS Inferentia2 上支援超過 100,000 個模型

幾個月前,我們引入了一種在 SageMaker 上部署大型語言模型 (LLM) 的新方法,為 Meta Llama 3 等受支援的模型提供了新的 Inferentia/Trainium 選項。您可以在 SageMaker 上的 Inferentia2 例項上部署 Llama3 模型,以進行大規模推理服務,並受益於 SageMaker 為模型構建和微調、MLOps 和治理提供的一整套完全託管的功能。

catalog

今天,我們將這種部署體驗的支援範圍擴大到 Hugging Face 上的超過 100,000 個公開模型,包括 14 種新的模型架構 (albertbertcamembertconvbertdebertadeberta-v2distilbertelectrarobertamobilebertmpnetvitxlmxlm-roberta) 和 6 種新的機器學習任務 (文字分類文字生成令牌分類掩碼填充問答特徵提取)。

遵循這些簡單的程式碼片段,AWS 客戶將能夠輕鬆地在 Amazon SageMaker 的 Inferentia2 例項上部署模型。

Hugging Face 推理終端 (Inference Endpoints) 現已支援 AWS Inferentia2

從 Hub 部署模型最簡單的選項是 Hugging Face 推理終端 (Inference Endpoints)。今天,我們很高興為 Hugging Face 推理終端引入新的 Inferentia 2 例項。現在,當您在 Hugging Face 中找到感興趣的模型時,只需點選幾下即可將其部署在 Inferentia2 上。您只需選擇要部署的模型,在 Amazon Web Services 例項配置下選擇新的 Inf2 例項選項,即可開始使用。

對於像 Llama 3 這樣的受支援模型,您可以選擇兩種規格:

  • Inf2-small,配備 2 核和 32 GB 記憶體 (每小時 0.75 美元),非常適合 Llama 3 8B
  • Inf2-xlarge,配備 24 核和 384 GB 記憶體 (每小時 12 美元),非常適合 Llama 3 70B

Hugging Face 推理終端按使用的容量秒數計費,成本會隨著副本自動擴充套件而增加,並透過縮容至零 (scale to zero) 功能降至零——這兩項功能都是自動化的,並且可以透過易於使用的設定啟用。

catalog

推理終端使用 基於 Neuron 的文字生成推理 (TGI) 在 AWS Inferentia 上執行 Llama 3。TGI 是一個專門為大規模生產工作負載部署和服務大型語言模型 (LLM) 而構建的解決方案,支援連續批處理、流式傳輸等多種功能。此外,使用文字生成推理部署的 LLM 與 OpenAI SDK Messages API 相容,因此,如果您已經有與 LLM 整合的 Gen AI 應用程式,您無需更改應用程式的程式碼,只需將請求指向您用 Hugging Face 推理終端部署的新端點即可。

在 Inferentia2 上部署端點後,您可以使用 UI 中提供的小元件 (Widget) 或 OpenAI SDK 傳送請求。

下一步計劃

我們正在努力擴大可透過 Hugging Face 推理終端在 AWS Inferentia2 上部署的模型範圍。接下來,我們希望增加對 Diffusion 和 Embedding 模型的支援,這樣您就可以利用 AWS Inferentia2 的加速能力和 Hugging Face 推理終端的易用性來生成影像並構建語義搜尋和推薦系統。

此外,我們將繼續努力提升文字生成推理 (TGI) on Neuronx 的效能,確保在我們的開源庫中,LLM 在 AWS Inferentia 2 上的部署更快、更高效。敬請期待這些更新,我們將繼續增強我們的能力並最佳化您的部署體驗!

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.