深度強化學習課程文件

第二份測驗

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

引言什麼是強化學習？簡短回顧兩種基於價值的方法貝爾曼方程，簡化我們的價值估計蒙特卡洛與時序差分學習中期回顧中期測驗 Q-學習介紹 Q-學習示例 Q-學習回顧詞彙表實操 Q-學習測驗結論延伸閱讀

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

第二份測驗

學習和避免能力錯覺的最佳方法是測試自己。這將幫助你找到需要鞏固知識的地方。

問題1：什麼是Q-學習？

問題2：什麼是Q-表？

問題3：為什麼如果我們有一個最優Q-函式Q*，我們就會有一個最優策略？

解決方案

因為如果我們有一個最優Q-函式，我們就有一個最優策略，因為我們知道對於每個狀態，應該採取什麼最佳行動。

link value policy

問題4：你能解釋一下什麼是ε-貪婪策略嗎？

解決方案

ε-貪婪策略是一種處理探索/利用權衡的策略。

其思想是，我們定義ε = 1.0。

以1 - ε的機率：我們進行利用（即我們的代理選擇具有最高狀態-行動對價值的行動）。
以ε的機率：我們進行探索（嘗試隨機行動）。

Epsilon Greedy

問題5：我們如何更新狀態-行動對的Q值？

Q Update exercise

解決方案

Q Update exercise

問題6：線上策略和離線策略有什麼區別？

解決方案

On/off policy

恭喜你完成了本次測驗🥳，如果你遺漏了一些內容，請花時間重新閱讀該章節以鞏固（😏）你的知識。

< > 在 GitHub 上更新

←實操結論→

© . This site is unofficial and not affiliated with Hugging Face, Inc.