🚀 利用 TGI 在 Intel Gaudi 上加速 LLM 推理

釋出日期：2025 年 3 月 28 日

在 GitHub 上更新

贊

我們很高興地宣佈，Text Generation Inference (TGI)，我們用於大型語言模型 (LLM) 的生產就緒服務解決方案，已原生整合 Intel Gaudi 硬體支援。此次整合將 Intel 專用 AI 加速器的強大功能引入我們的高效能推理堆疊，為開源 AI 社群提供了更多的部署選擇🎉

✨ 新功能？

我們已將 Gaudi 支援完全整合到 TGI 的主程式碼庫中，詳見 PR #3091。此前，我們為 Gaudi 裝置維護了一個獨立的 fork，位於 tgi-gaudi。這給使用者帶來了不便，並阻礙了我們在釋出時支援最新的 TGI 功能。現在，透過新的 TGI 多後端架構，我們直接在 TGI 上支援 Gaudi——不再需要在自定義倉庫上進行繁瑣的操作🙌

此整合支援 Intel 全系列的 Gaudi 硬體

Gaudi1 💻：可在 AWS EC2 DL1 例項上使用
Gaudi2 💻💻：可在 Intel Tiber AI Cloud 和 Denvr Dataworks 上使用
Gaudi3 💻💻💻：可在 Intel Tiber AI Cloud、IBM Cloud 以及 Dell、HP 和 Supermicro 等原始裝置製造商 (OEM) 處使用

您還可以在 Intel Gaudi 產品頁面上找到更多關於 Gaudi 硬體的資訊

🌟 為什麼這很重要

TGI 的 Gaudi 後端提供了幾個關鍵優勢：

硬體多樣性 🔄：除了傳統的 GPU，LLM 生產部署有了更多選擇。
成本效益 💰：Gaudi 硬體通常為特定工作負載提供極具競爭力的價效比。
生產就緒 ⚙️：TGI 的所有穩健功能（動態批處理、流式響應等）現在都可在 Gaudi 上使用。
模型支援 🤖：在 Gaudi 硬體上執行 Llama 3.1、Mixtral、Mistral 等熱門模型。
高階功能 🔥：支援多卡推理（分片）、視覺-語言模型和 FP8 精度。

🚦 在 Gaudi 上開始使用 TGI

在 Gaudi 上執行 TGI 最簡單的方法是使用我們的官方 Docker 映象。您需要在 Gaudi 硬體機器上執行該映象。以下是一個簡單的示例，可幫助您入門

model=meta-llama/Meta-Llama-3.1-8B-Instruct 
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run 
hf_token=YOUR_HF_ACCESS_TOKEN

docker run --runtime=habana --cap-add=sys_nice --ipc=host \
 -p 8080:80 \
 -v $volume:/data \
 -e HF_TOKEN=$hf_token \
 -e HABANA_VISIBLE_DEVICES=all \
 ghcr.io/huggingface/text-generation-inference:3.2.1-gaudi \
 --model-id $model

伺服器執行後，您可以傳送推理請求

curl 127.0.0.1:8080/generate
 -X POST
 -d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}'
 -H 'Content-Type: application/json'

有關在 Gaudi 上使用 TGI 的完整文件，包括操作指南和高階配置，請參閱新的專用 Gaudi 後端文件。

🎉 主要功能

我們已針對單卡和多卡配置優化了以下模型。這意味著這些模型在 Intel Gaudi 上執行速度儘可能快。我們專門優化了建模程式碼以針對 Intel Gaudi 硬體，確保我們提供最佳效能並充分利用 Gaudi 的功能

Llama 3.1 (8B 和 70B)
Llama 3.3 (70B)
Llama 3.2 Vision (11B)
Mistral (7B)
Mixtral (8x7B)
CodeLlama (13B)
Falcon (180B)
Qwen2 (72B)
Starcoder 和 Starcoder2
Gemma (7B)
Llava-v1.6-Mistral-7B
Phi-2

🏃‍♂️ 我們還在 Gaudi 硬體上提供了許多高階功能，例如透過 Intel Neural Compressor (INC) 實現的 FP8 量化，從而實現更強大的效能最佳化。

✨ 即將推出！我們很高興能透過 DeepSeek-r1/v3、QWen-VL 和更多強大模型等尖端新增功能來擴充套件我們的模型陣容，為您的 AI 應用提供支援！🚀

💪 參與其中

我們邀請社群在 Gaudi 硬體上試用 TGI 並提供反饋。完整文件可在 TGI Gaudi 後端文件中找到。📚 如果您有興趣貢獻，請檢視我們的貢獻指南或在 GitHub 上提出問題並提供您的反饋。🤝 透過將 Intel Gaudi 支援直接引入 TGI，我們正在繼續我們的使命，即提供靈活、高效且生產就緒的工具來部署 LLM。我們很高興看到您將利用這項新功能構建什麼！🎉

更多部落格文章