Diffusers 文件

使用 DDPO 進行強化學習訓練

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

使用 DDPO 進行強化學習訓練

您可以使用 🤗 TRL 庫和 🤗 Diffusers 透過強化學習,根據獎勵函式微調 Stable Diffusion。這透過 Black 等人在 Training Diffusion Models with Reinforcement Learning 中介紹的去噪擴散策略最佳化 (DDPO) 演算法實現,該演算法在 🤗 TRL 中使用 DDPOTrainer 實現。

欲瞭解更多資訊,請檢視 DDPOTrainer API 參考和 Finetune Stable Diffusion Models with DDPO via TRL 部落格文章。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.