text-generation-inference 文件

將 TGI 與 Nvidia GPU 結合使用

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

將 TGI 與 Nvidia GPU 結合使用

TGI 最佳化的模型支援 NVIDIA H100A100A10GT4 GPU,要求 CUDA 12.2+。請注意,您必須安裝 NVIDIA Container Toolkit 才能使用它。

對於其他 NVIDIA GPU,仍將應用連續批處理,但某些操作(如閃電注意力 (flash attention) 和分頁注意力 (paged attention))將不會執行。

TGI 可以透過其官方 Docker 映象在 NVIDIA GPU 上使用

model=teknium/OpenHermes-2.5-Mistral-7B
volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run

docker run --gpus all --shm-size 64g -p 8080:80 -v $volume:/data \
    ghcr.io/huggingface/text-generation-inference:3.3.4 \
    --model-id $model

啟動的 TGI 伺服器隨後可以從客戶端查詢,請務必檢視使用 TGI 指南。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.