TRL 文件

加快訓練速度

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

加快訓練速度

此部分正在建設中。歡迎貢獻!

使用 vLLM 在線上方法中實現快速生成

像 GRPO 或 Online DPO 這樣的線上方法需要模型生成補全,這通常是一個緩慢的過程,並且會顯著影響訓練時間。為了加快生成速度,您可以使用 vLLM,這是一個透過 PagedAttention 等技術實現快速生成的庫。TRL 的線上訓練器支援 vLLM,極大地提高了訓練速度。

要使用 vLLM,請先使用以下命令安裝它

pip install vllm

或者

pip install "trl[vllm]"
Online DPO
GRPO

然後,在訓練引數中傳遞 use_vllm=True 來啟用它。

from trl import OnlineDPOConfig

training_args = OnlineDPOConfig(..., use_vllm=True)
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.