非核心模型服務

TGI 支援各種 LLM 架構（完整列表請參閱此處）。如果您希望服務不受支援的模型，TGI 將回退到該模型的 `transformers` 實現。這意味著您將無法使用 TGI 引入的一些功能，例如張量並行分片或 Flash Attention。但是，您仍然可以獲得 TGI 的許多好處，例如連續批處理或流式輸出。

您可以使用與完全支援的模型相同的 Docker 命令列呼叫來服務這些模型 👇

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

如果您希望服務的模型是自定義 transformers 模型，並且其權重和實現已在 Hub 中可用，您仍然可以透過向 `docker run` 命令傳遞 `--trust-remote-code` 標誌來服務該模型，如下所示 👇

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

最後，如果模型不在 Hugging Face Hub 上，而是在您的本地，您可以傳遞包含模型資料夾的路徑，如下所示 👇

# Make sure your model is in the $volume directory
docker run --shm-size 1g -p 8080:80 -v $volume:/data  ghcr.io/huggingface/text-generation-inference:latest --model-id /data/<PATH-TO-FOLDER>

有關更多資訊，您可以參考transformers 自定義模型文件。

< > 在 GitHub 上更新

文字生成推理 (text-generation-inference)

非核心模型服務