Transformers 文件
服務
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
服務
Transformer 模型可以透過專門的庫(如 Text Generation Inference (TGI) 和 vLLM)進行推理服務。這些庫專門設計用於最佳化 LLM 的效能,幷包含許多 Transformers 中可能沒有的獨特最佳化功能。
TGI
TGI 可以透過回退到模型的 Transformers 實現來服務非原生實現的模型。TGI 的一些高效能功能在 Transformers 實現中不可用,但連續批處理和流式傳輸等其他功能仍然受支援。
有關更多詳細資訊,請參閱非核心模型服務指南。
以與服務 TGI 模型相同的方式服務 Transformers 實現。
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2
在命令中新增 `—trust-remote_code` 以服務自定義 Transformers 模型。
docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code
vLLM
如果模型在 vLLM 中未原生實現,vLLM 也可以服務 Transformers 實現的模型。
對於 Transformers 實現,許多功能(如量化、LoRA 介面卡以及分散式推理和服務)都受支援。
有關更多詳細資訊,請參閱Transformers 回退部分。
預設情況下,vLLM 提供原生實現;如果原生實現不存在,則回退到 Transformers 實現。但您也可以設定 `—model-impl transformers` 以明確使用 Transformers 模型實現。
vllm serve Qwen/Qwen2.5-1.5B-Instruct \ --task generate \ --model-impl transformers
新增 `trust-remote-code` 引數以啟用載入遠端程式碼模型。
vllm serve Qwen/Qwen2.5-1.5B-Instruct \ --task generate \ --model-impl transformers \ --trust-remote-code