快速指南

最簡單的入門方法是使用官方 Docker 容器。按照他們的安裝說明安裝 Docker。

啟動 TGI

假設您想在 Nvidia GPU 上使用 TGI 部署 teknium/OpenHermes-2.5-Mistral-7B 模型。這是一個如何操作的示例

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.3.4 \
    --model-id $model

如果您想提供受限或私有模型，請參閱本指南以獲取詳細說明。

支援的硬體

TGI 支援各種硬體。請務必根據您希望部署 TGI 的硬體，查閱在 Nvidia GPU 上使用 TGI、在 AMD GPU 上使用 TGI、在 Intel GPU 上使用 TGI、在 Gaudi 上使用 TGI、在 Inferentia 上使用 TGI 等指南。

使用 TGI

TGI 執行後，您可以使用 generate 端點或與 OpenAI 聊天完成 API 相容的 Messages API 發出請求。要了解如何查詢端點，請檢視使用 TGI 部分，我們在其中展示了使用實用程式庫和 UI 的示例。下面您可以看到一個簡單的程式碼片段，用於查詢端點。

Python

JavaScript

cURL

要檢視所有可能的部署標誌和選項，您可以使用 --help 標誌。可以配置分片數量、量化、生成引數等。

docker run ghcr.io/huggingface/text-generation-inference:3.3.4 --help

< > 在 GitHub 上更新