服務

Transformer 模型可以透過專門的庫（如 Text Generation Inference (TGI) 和 vLLM）進行推理服務。這些庫專門設計用於最佳化 LLM 的效能，幷包含許多 Transformers 中可能沒有的獨特最佳化功能。

TGI

TGI 可以透過回退到模型的 Transformers 實現來服務非原生實現的模型。TGI 的一些高效能功能在 Transformers 實現中不可用，但連續批處理和流式傳輸等其他功能仍然受支援。

有關更多詳細資訊，請參閱非核心模型服務指南。

以與服務 TGI 模型相同的方式服務 Transformers 實現。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

在命令中新增 `—trust-remote_code` 以服務自定義 Transformers 模型。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

vLLM

如果模型在 vLLM 中未原生實現，vLLM 也可以服務 Transformers 實現的模型。

對於 Transformers 實現，許多功能（如量化、LoRA 介面卡以及分散式推理和服務）都受支援。

有關更多詳細資訊，請參閱Transformers 回退部分。

預設情況下，vLLM 提供原生實現；如果原生實現不存在，則回退到 Transformers 實現。但您也可以設定 `—model-impl transformers` 以明確使用 Transformers 模型實現。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers

新增 `trust-remote-code` 引數以啟用載入遠端程式碼模型。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers \
    --trust-remote-code

< > 在 GitHub 上更新