text-generation-inference 文件

非核心模型服務

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

非核心模型服務

TGI 支援各種 LLM 架構(完整列表請參閱此處)。如果您希望服務不受支援的模型,TGI 將回退到該模型的 `transformers` 實現。這意味著您將無法使用 TGI 引入的一些功能,例如張量並行分片或 Flash Attention。但是,您仍然可以獲得 TGI 的許多好處,例如連續批處理或流式輸出。

您可以使用與完全支援的模型相同的 Docker 命令列呼叫來服務這些模型 👇

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

如果您希望服務的模型是自定義 transformers 模型,並且其權重和實現已在 Hub 中可用,您仍然可以透過向 `docker run` 命令傳遞 `--trust-remote-code` 標誌來服務該模型,如下所示 👇

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

最後,如果模型不在 Hugging Face Hub 上,而是在您的本地,您可以傳遞包含模型資料夾的路徑,如下所示 👇

# Make sure your model is in the $volume directory
docker run --shm-size 1g -p 8080:80 -v $volume:/data  ghcr.io/huggingface/text-generation-inference:latest --model-id /data/<PATH-TO-FOLDER>

有關更多資訊,您可以參考transformers 自定義模型文件

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.