Transformers 文件

服務

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

服務

Transformer 模型可以透過專門的庫(如 Text Generation Inference (TGI) 和 vLLM)進行推理服務。這些庫專門設計用於最佳化 LLM 的效能,幷包含許多 Transformers 中可能沒有的獨特最佳化功能。

TGI

TGI 可以透過回退到模型的 Transformers 實現來服務非原生實現的模型。TGI 的一些高效能功能在 Transformers 實現中不可用,但連續批處理和流式傳輸等其他功能仍然受支援。

有關更多詳細資訊,請參閱非核心模型服務指南。

以與服務 TGI 模型相同的方式服務 Transformers 實現。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id gpt2

在命令中新增 `—trust-remote_code` 以服務自定義 Transformers 模型。

docker run --gpus all --shm-size 1g -p 8080:80 -v $volume:/data ghcr.io/huggingface/text-generation-inference:latest --model-id <CUSTOM_MODEL_ID> --trust-remote-code

vLLM

如果模型在 vLLM 中未原生實現vLLM 也可以服務 Transformers 實現的模型。

對於 Transformers 實現,許多功能(如量化、LoRA 介面卡以及分散式推理和服務)都受支援。

有關更多詳細資訊,請參閱Transformers 回退部分。

預設情況下,vLLM 提供原生實現;如果原生實現不存在,則回退到 Transformers 實現。但您也可以設定 `—model-impl transformers` 以明確使用 Transformers 模型實現。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers

新增 `trust-remote-code` 引數以啟用載入遠端程式碼模型。

vllm serve Qwen/Qwen2.5-1.5B-Instruct \
    --task generate \
    --model-impl transformers \
    --trust-remote-code
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.