深度強化學習課程文件

中期測驗

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

引言什麼是強化學習？簡短回顧兩種基於價值的方法貝爾曼方程，簡化我們的價值估計蒙特卡洛與時序差分學習中期回顧中期測驗 Q-學習介紹一個 Q-學習示例 Q-學習回顧詞彙表實操 Q-學習測驗結論延伸閱讀

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

中期測驗

學習和避免能力錯覺的最佳方法是自我測試。這將幫助你找到需要鞏固知識的地方。

問題1：尋找最優策略的兩種主要方法是什麼？

問題2：什麼是貝爾曼方程？

解決方案

貝爾曼方程是一個遞迴方程，其工作原理如下：我們不是從每個狀態的開始計算回報，而是將任何狀態的價值視為：

Rt+1 + gamma * V(St+1)

即時獎勵 + 後續狀態的折扣價值

問題3：定義貝爾曼方程的每個部分

Bellman equation quiz

解決方案

Bellman equation solution

問題4：蒙特卡洛學習方法和時序差分學習方法有什麼區別？

問題5：定義時序差分學習公式的每個部分

TD Learning exercise

解決方案

TD Exercise

問題6：定義蒙特卡洛學習公式的每個部分

MC Learning exercise

解決方案

MC Exercise

恭喜你完成了本次測驗🥳，如果你遺漏了一些內容，請花時間重新閱讀前面的章節以鞏固（😏）你的知識。

< > 在 GitHub 上更新

←中期回顧 Q-學習介紹→

© . This site is unofficial and not affiliated with Hugging Face, Inc.