Diffusers 文件
使用 DDPO 進行強化學習訓練
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
使用 DDPO 進行強化學習訓練
您可以使用 🤗 TRL 庫和 🤗 Diffusers 透過強化學習,根據獎勵函式微調 Stable Diffusion。這透過 Black 等人在 Training Diffusion Models with Reinforcement Learning 中介紹的去噪擴散策略最佳化 (DDPO) 演算法實現,該演算法在 🤗 TRL 中使用 DDPOTrainer 實現。
欲瞭解更多資訊,請檢視 DDPOTrainer API 參考和 Finetune Stable Diffusion Models with DDPO via TRL 部落格文章。
< > 在 GitHub 上更新