text-generation-inference 文件
非核心模型服務
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
非核心模型服務
TGI 支援各種 LLM 架構(完整列表請參閱此處)。如果您希望服務不受支援的模型,TGI 將回退到該模型的 `transformers` 實現。這意味著您將無法使用 TGI 引入的一些功能,例如張量並行分片或 Flash Attention。但是,您仍然可以獲得 TGI 的許多好處,例如連續批處理或流式輸出。
您可以使用與完全支援的模型相同的 Docker 命令列呼叫來服務這些模型 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2
如果您希望服務的模型是自定義 transformers 模型,並且其權重和實現已在 Hub 中可用,您仍然可以透過向 `docker run` 命令傳遞 `--trust-remote-code` 標誌來服務該模型,如下所示 👇
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code
最後,如果模型不在 Hugging Face Hub 上,而是在您的本地,您可以傳遞包含模型資料夾的路徑,如下所示 👇
# Make sure your model is in the $volume directory
docker run --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id /data/<PATH-TO-FOLDER>
有關更多資訊,您可以參考transformers 自定義模型文件。
< > 在 GitHub 上更新