文字生成推理

多後端支援

TGI（文字生成推理）透過支援多個後端來靈活地服務大型語言模型（LLMs）。透過多後端支援，您可以選擇最適合您需求的後端，無論是優先考慮效能、易用性還是與特定硬體的相容性。與TGI的API互動在不同後端之間保持一致，讓您可以在它們之間無縫切換。

支援的後端

TGI CUDA後端：這個高效能後端針對NVIDIA GPU進行了最佳化，是TGI中的預設選項。它由內部開發，擁有眾多最佳化，並被包括Hugging Face在內的各種專案投入生產使用。
TGI TRTLLM後端：此後端利用NVIDIA的TensorRT庫來加速LLM推理。它利用專門的最佳化和自定義核心來增強效能。但是，它需要為每個GPU架構進行模型特定的編譯步驟。
TGI Llamacpp後端：此後端透過整合[llama.cpp][llama.cpp]來促進大型語言模型（LLMs）的部署，llama.cpp是一種針對CPU和GPU計算都進行了最佳化的先進推理引擎。
TGI Neuron後端：此後端利用AWS Neuron SDK來實現在AWS Trainium和Inferentia晶片上部署大型語言模型（LLMs）。