深度強化學習課程文件
延伸閱讀
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
延伸閱讀
如果您想深入學習,這些是可選閱讀材料。
策略最佳化簡介
策略梯度
- https://johnwlambert.github.io/policy-gradients/
- RL - 策略梯度解釋
- 第13章,策略梯度方法;強化學習,Richard Sutton 和 Andrew G. Barto 著
深度強化學習課程文件
延伸閱讀
並獲得增強的文件體驗
開始使用
如果您想深入學習,這些是可選閱讀材料。