深度強化學習課程文件

延伸閱讀

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

簡介什麼是基於策略的方法？策略梯度方法的優缺點深入探索策略梯度（可選）策略梯度定理詞彙表實踐測驗總結延伸閱讀

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

延伸閱讀

如果您想深入學習，這些是可選閱讀材料。

策略最佳化簡介

第三部分：策略最佳化簡介 - Spinning Up 文件

策略梯度

實現

< > 在 GitHub 上更新

←總結簡介→

© . This site is unofficial and not affiliated with Hugging Face, Inc.