🚀 利用 TGI 在 Intel Gaudi 上加速 LLM 推理

釋出日期:2025 年 3 月 28 日
在 GitHub 上更新

我們很高興地宣佈,Text Generation Inference (TGI),我們用於大型語言模型 (LLM) 的生產就緒服務解決方案,已原生整合 Intel Gaudi 硬體支援。此次整合將 Intel 專用 AI 加速器的強大功能引入我們的高效能推理堆疊,為開源 AI 社群提供了更多的部署選擇🎉

✨ 新功能?

我們已將 Gaudi 支援完全整合到 TGI 的主程式碼庫中,詳見 PR #3091。此前,我們為 Gaudi 裝置維護了一個獨立的 fork,位於 tgi-gaudi。這給使用者帶來了不便,並阻礙了我們在釋出時支援最新的 TGI 功能。現在,透過新的 TGI 多後端架構,我們直接在 TGI 上支援 Gaudi——不再需要在自定義倉庫上進行繁瑣的操作🙌

此整合支援 Intel 全系列的 Gaudi 硬體

您還可以在 Intel Gaudi 產品頁面上找到更多關於 Gaudi 硬體的資訊

🌟 為什麼這很重要

TGI 的 Gaudi 後端提供了幾個關鍵優勢:

  • 硬體多樣性 🔄:除了傳統的 GPU,LLM 生產部署有了更多選擇。
  • 成本效益 💰:Gaudi 硬體通常為特定工作負載提供極具競爭力的價效比。
  • 生產就緒 ⚙️:TGI 的所有穩健功能(動態批處理、流式響應等)現在都可在 Gaudi 上使用。
  • 模型支援 🤖:在 Gaudi 硬體上執行 Llama 3.1、Mixtral、Mistral 等熱門模型。
  • 高階功能 🔥:支援多卡推理(分片)、視覺-語言模型和 FP8 精度。

🚦 在 Gaudi 上開始使用 TGI

在 Gaudi 上執行 TGI 最簡單的方法是使用我們的官方 Docker 映象。您需要在 Gaudi 硬體機器上執行該映象。以下是一個簡單的示例,可幫助您入門

model=meta-llama/Meta-Llama-3.1-8B-Instruct 
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run 
hf_token=YOUR_HF_ACCESS_TOKEN

docker run --runtime=habana --cap-add=sys_nice --ipc=host \
 -p 8080:80 \
 -v $volume:/data \
 -e HF_TOKEN=$hf_token \
 -e HABANA_VISIBLE_DEVICES=all \
 ghcr.io/huggingface/text-generation-inference:3.2.1-gaudi \
 --model-id $model 

伺服器執行後,您可以傳送推理請求

curl 127.0.0.1:8080/generate
 -X POST
 -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}'
 -H 'Content-Type: application/json'

有關在 Gaudi 上使用 TGI 的完整文件,包括操作指南和高階配置,請參閱新的專用 Gaudi 後端文件

🎉 主要功能

我們已針對單卡和多卡配置優化了以下模型。這意味著這些模型在 Intel Gaudi 上執行速度儘可能快。我們專門優化了建模程式碼以針對 Intel Gaudi 硬體,確保我們提供最佳效能並充分利用 Gaudi 的功能

  • Llama 3.1 (8B 和 70B)
  • Llama 3.3 (70B)
  • Llama 3.2 Vision (11B)
  • Mistral (7B)
  • Mixtral (8x7B)
  • CodeLlama (13B)
  • Falcon (180B)
  • Qwen2 (72B)
  • Starcoder 和 Starcoder2
  • Gemma (7B)
  • Llava-v1.6-Mistral-7B
  • Phi-2

🏃‍♂️ 我們還在 Gaudi 硬體上提供了許多高階功能,例如透過 Intel Neural Compressor (INC) 實現的 FP8 量化,從而實現更強大的效能最佳化。

✨ 即將推出!我們很高興能透過 DeepSeek-r1/v3、QWen-VL 和更多強大模型等尖端新增功能來擴充套件我們的模型陣容,為您的 AI 應用提供支援!🚀

💪 參與其中

我們邀請社群在 Gaudi 硬體上試用 TGI 並提供反饋。完整文件可在 TGI Gaudi 後端文件中找到。📚 如果您有興趣貢獻,請檢視我們的貢獻指南或在 GitHub 上提出問題並提供您的反饋。🤝 透過將 Intel Gaudi 支援直接引入 TGI,我們正在繼續我們的使命,即提供靈活、高效且生產就緒的工具來部署 LLM。我們很高興看到您將利用這項新功能構建什麼!🎉

社群

幹得好!

好文章!

註冊登入 以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.