TRL

加快訓練速度

此部分正在建設中。歡迎貢獻！

使用 vLLM 在線上方法中實現快速生成

像 GRPO 或 Online DPO 這樣的線上方法需要模型生成補全，這通常是一個緩慢的過程，並且會顯著影響訓練時間。為了加快生成速度，您可以使用 vLLM，這是一個透過 PagedAttention 等技術實現快速生成的庫。TRL 的線上訓練器支援 vLLM，極大地提高了訓練速度。

要使用 vLLM，請先使用以下命令安裝它

pip install vllm

或者

pip install "trl[vllm]"

Online DPO

GRPO