Text Generation Inference 引入多後端支援 (TRT-LLM, vLLM)

釋出於 2025 年 1 月 16 日
在 GitHub 上更新

引言

自 2022 年首次釋出以來,Text-Generation-Inference (TGI) 為 Hugging Face 和 AI 社群提供了一個注重效能的解決方案,可以輕鬆部署大型語言模型 (LLM)。TGI 最初提供了一個幾乎無需程式碼的解決方案,用於從 Hugging Face Hub 載入模型並在 NVIDIA GPU 上進行生產部署。隨著時間的推移,支援範圍擴充套件到包括 AMD Instinct GPU、Intel GPU、AWS Trainium/Inferentia、Google TPU 和 Intel Gaudi。
多年來,出現了多種推理解決方案,包括 vLLM、SGLang、llama.cpp、TensorRT-LLM 等,將整個生態系統分割開來。不同的模型、硬體和用例可能需要特定的後端才能實現最佳效能。然而,正確配置每個後端、管理許可證以及將它們整合到現有基礎設施中對使用者來說可能具有挑戰性。

為了解決這個問題,我們很高興引入 TGI 後端的概念。這種新架構提供了靈活性,可以透過 TGI 作為單一統一的前端層與上述任何解決方案整合。這一變化使社群更容易為其生產工作負載獲得最佳效能,根據其建模、硬體和效能要求切換後端。

Hugging Face 團隊很高興能與構建 vLLM、llama.cpp、TensorRT-LLM 的團隊以及 AWS、Google、NVIDIA、AMD 和 Intel 的團隊合作,為 TGI 使用者提供強大且一致的使用者體驗,無論他們想使用哪種後端和硬體。

TGI multi-backend stack

TGI 後端:幕後故事

TGI 由多個元件組成,主要用 Rust 和 Python 編寫。Rust 負責 HTTP 和排程層,而 Python 仍然是建模的首選。

長話短說:Rust 使我們能夠透過靜態分析和基於編譯器的記憶體安全強制來提高服務層的整體魯棒性:它帶來了在相同安全保證下更容易擴充套件到多個核心的能力。利用 Rust 強大的型別系統構建 HTTP 層和排程器,可以避免記憶體問題,同時最大化併發性,繞過基於 Python 環境中的全域性直譯器鎖 (GIL)。

說到 Rust……驚喜的是,這是 TGI 整合新後端的起點 - 🤗

今年早些時候,TGI 團隊致力於公開基本設定,以解開實際的 HTTP 伺服器和排程器是如何耦合在一起的。這項工作引入了新的 Rust `trait Backend` 來介面當前的推理引擎和未來的引擎。

有了這個新的 `Backend` 介面(或 Rust 術語中的 trait),為模組化鋪平了道路,並使得將傳入請求實際路由到不同的建模和執行引擎成為可能。

展望:2025

TGI 的新多後端功能開啟了許多重要的路線圖機會。展望 2025 年,我們很高興分享一些我們最期待的 TGI 發展。

  • NVIDIA TensorRT-LLM 後端:我們正在與 NVIDIA TensorRT-LLM 團隊合作,為社群帶來所有最佳化的 NVIDIA GPU + TensorRT 效能。這項工作將在即將釋出的部落格文章中更廣泛地介紹。它與我們的使命密切相關,即透過 `optimum-nvidia` 量化/構建/評估 TensorRT 相容工件的開源可用性以及 TGI+TRT-LLM 輕鬆在 NVIDIA GPU 上部署、執行和擴充套件部署,從而賦能 AI 構建者。
  • Llama.cpp 後端:我們正在與 llama.cpp 團隊合作,擴充套件對伺服器生產用例的支援。TGI 的 llama.cpp 後端將為任何希望在 Intel、AMD 或 ARM CPU 伺服器上部署的使用者提供強大的基於 CPU 的選項。
  • vLLM 後端:我們正在為 vLLM 專案做出貢獻,並計劃在 25 年第一季度將 vLLM 整合到 TGI 後端。
  • AWS Neuron 後端:我們正在與 AWS 的 Neuron 團隊合作,在 TGI 中原生支援 Inferentia 2 和 Trainium 2。
  • Google TPU 後端:我們正在與 Google Jetstream & TPU 團隊合作,透過 TGI 提供最佳效能。

我們相信 TGI 後端將有助於簡化 LLM 的部署,為所有 TGI 使用者帶來多功能性和效能。您很快就能直接在 Inference Endpoints 中使用 TGI 後端。客戶將能夠輕鬆地在各種硬體上使用 TGI 後端部署模型,並開箱即用地獲得頂級效能和可靠性。

請繼續關注下一篇部落格文章,我們將深入探討即將推出的後端的技​​術細節和效能基準!

社群

出色的工作,期待發布!

太酷了!感謝所有的辛勤工作。

太棒了!2025 年對 TGI 來說將是精彩的一年!🤗

衝啊!!

太棒了!

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.