Diffusers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

使用 DDPO 進行強化學習訓練

您可以使用 🤗 TRL 庫和 🤗 Diffusers 透過強化學習，根據獎勵函式微調 Stable Diffusion。這透過 Black 等人在 Training Diffusion Models with Reinforcement Learning 中介紹的去噪擴散策略最佳化 (DDPO) 演算法實現，該演算法在 🤗 TRL 中使用 DDPOTrainer 實現。

欲瞭解更多資訊，請檢視 DDPOTrainer API 參考和 Finetune Stable Diffusion Models with DDPO via TRL 部落格文章。

< > 在 GitHub 上更新

←潛在一致性蒸餾入門→