🚀 利用 TGI 在 Intel Gaudi 上加速 LLM 推理
我們很高興地宣佈,Text Generation Inference (TGI),我們用於大型語言模型 (LLM) 的生產就緒服務解決方案,已原生整合 Intel Gaudi 硬體支援。此次整合將 Intel 專用 AI 加速器的強大功能引入我們的高效能推理堆疊,為開源 AI 社群提供了更多的部署選擇🎉
✨ 新功能?
我們已將 Gaudi 支援完全整合到 TGI 的主程式碼庫中,詳見 PR #3091。此前,我們為 Gaudi 裝置維護了一個獨立的 fork,位於 tgi-gaudi。這給使用者帶來了不便,並阻礙了我們在釋出時支援最新的 TGI 功能。現在,透過新的 TGI 多後端架構,我們直接在 TGI 上支援 Gaudi——不再需要在自定義倉庫上進行繁瑣的操作🙌
此整合支援 Intel 全系列的 Gaudi 硬體
- Gaudi1 💻:可在 AWS EC2 DL1 例項上使用
- Gaudi2 💻💻:可在 Intel Tiber AI Cloud 和 Denvr Dataworks 上使用
- Gaudi3 💻💻💻:可在 Intel Tiber AI Cloud、IBM Cloud 以及 Dell、HP 和 Supermicro 等原始裝置製造商 (OEM) 處使用
您還可以在 Intel Gaudi 產品頁面上找到更多關於 Gaudi 硬體的資訊
🌟 為什麼這很重要
TGI 的 Gaudi 後端提供了幾個關鍵優勢:
- 硬體多樣性 🔄:除了傳統的 GPU,LLM 生產部署有了更多選擇。
- 成本效益 💰:Gaudi 硬體通常為特定工作負載提供極具競爭力的價效比。
- 生產就緒 ⚙️:TGI 的所有穩健功能(動態批處理、流式響應等)現在都可在 Gaudi 上使用。
- 模型支援 🤖:在 Gaudi 硬體上執行 Llama 3.1、Mixtral、Mistral 等熱門模型。
- 高階功能 🔥:支援多卡推理(分片)、視覺-語言模型和 FP8 精度。
🚦 在 Gaudi 上開始使用 TGI
在 Gaudi 上執行 TGI 最簡單的方法是使用我們的官方 Docker 映象。您需要在 Gaudi 硬體機器上執行該映象。以下是一個簡單的示例,可幫助您入門
model=meta-llama/Meta-Llama-3.1-8B-Instruct
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
hf_token=YOUR_HF_ACCESS_TOKEN
docker run --runtime=habana --cap-add=sys_nice --ipc=host \
-p 8080:80 \
-v $volume:/data \
-e HF_TOKEN=$hf_token \
-e HABANA_VISIBLE_DEVICES=all \
ghcr.io/huggingface/text-generation-inference:3.2.1-gaudi \
--model-id $model
伺服器執行後,您可以傳送推理請求
curl 127.0.0.1:8080/generate
-X POST
-d '{"inputs":"What is Deep Learning?","parameters":{"max_new_tokens":32}}'
-H 'Content-Type: application/json'
有關在 Gaudi 上使用 TGI 的完整文件,包括操作指南和高階配置,請參閱新的專用 Gaudi 後端文件。
🎉 主要功能
我們已針對單卡和多卡配置優化了以下模型。這意味著這些模型在 Intel Gaudi 上執行速度儘可能快。我們專門優化了建模程式碼以針對 Intel Gaudi 硬體,確保我們提供最佳效能並充分利用 Gaudi 的功能
- Llama 3.1 (8B 和 70B)
- Llama 3.3 (70B)
- Llama 3.2 Vision (11B)
- Mistral (7B)
- Mixtral (8x7B)
- CodeLlama (13B)
- Falcon (180B)
- Qwen2 (72B)
- Starcoder 和 Starcoder2
- Gemma (7B)
- Llava-v1.6-Mistral-7B
- Phi-2
🏃♂️ 我們還在 Gaudi 硬體上提供了許多高階功能,例如透過 Intel Neural Compressor (INC) 實現的 FP8 量化,從而實現更強大的效能最佳化。
✨ 即將推出!我們很高興能透過 DeepSeek-r1/v3、QWen-VL 和更多強大模型等尖端新增功能來擴充套件我們的模型陣容,為您的 AI 應用提供支援!🚀
💪 參與其中
我們邀請社群在 Gaudi 硬體上試用 TGI 並提供反饋。完整文件可在 TGI Gaudi 後端文件中找到。📚 如果您有興趣貢獻,請檢視我們的貢獻指南或在 GitHub 上提出問題並提供您的反饋。🤝 透過將 Intel Gaudi 支援直接引入 TGI,我們正在繼續我們的使命,即提供靈活、高效且生產就緒的工具來部署 LLM。我們很高興看到您將利用這項新功能構建什麼!🎉