深度強化學習課程文件

中期測驗

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

中期測驗

學習和避免能力錯覺的最佳方法是自我測試。這將幫助你找到需要鞏固知識的地方

問題1:尋找最優策略的兩種主要方法是什麼?

問題2:什麼是貝爾曼方程?

解決方案

貝爾曼方程是一個遞迴方程,其工作原理如下:我們不是從每個狀態的開始計算回報,而是將任何狀態的價值視為:

Rt+1 + gamma * V(St+1)

即時獎勵 + 後續狀態的折扣價值

問題3:定義貝爾曼方程的每個部分

Bellman equation quiz
解決方案 Bellman equation solution

問題4:蒙特卡洛學習方法和時序差分學習方法有什麼區別?

問題5:定義時序差分學習公式的每個部分

TD Learning exercise
解決方案 TD Exercise

問題6:定義蒙特卡洛學習公式的每個部分

MC Learning exercise
解決方案 MC Exercise

恭喜你完成了本次測驗🥳,如果你遺漏了一些內容,請花時間重新閱讀前面的章節以鞏固(😏)你的知識。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.