深度強化學習課程文件
延伸閱讀
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
延伸閱讀
如果您想深入學習,這些是可選閱讀材料。
PPO 解釋
- Daniel Bick 的《Proximal Policy Optimization 的連貫自洽解釋》
- 如何在強化學習中理解近端策略最佳化演算法?
- Pieter Abbeel 的《深度強化學習基礎系列,L4 TRPO 和 PPO》
- OpenAI PPO 部落格文章
- Spinning Up RL PPO
- 論文:近端策略最佳化演算法