text-generation-inference 文件
多後端支援
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
多後端支援
TGI(文字生成推理)透過支援多個後端來靈活地服務大型語言模型(LLMs)。透過多後端支援,您可以選擇最適合您需求的後端,無論是優先考慮效能、易用性還是與特定硬體的相容性。與TGI的API互動在不同後端之間保持一致,讓您可以在它們之間無縫切換。
支援的後端
- TGI CUDA後端:這個高效能後端針對NVIDIA GPU進行了最佳化,是TGI中的預設選項。它由內部開發,擁有眾多最佳化,並被包括Hugging Face在內的各種專案投入生產使用。
- TGI TRTLLM後端:此後端利用NVIDIA的TensorRT庫來加速LLM推理。它利用專門的最佳化和自定義核心來增強效能。但是,它需要為每個GPU架構進行模型特定的編譯步驟。
- TGI Llamacpp後端:此後端透過整合[llama.cpp][llama.cpp]來促進大型語言模型(LLMs)的部署,llama.cpp是一種針對CPU和GPU計算都進行了最佳化的先進推理引擎。
- TGI Neuron後端:此後端利用AWS Neuron SDK來實現在AWS Trainium和Inferentia晶片上部署大型語言模型(LLMs)。