深度強化學習課程文件
中期測驗
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
中期測驗
學習和避免能力錯覺的最佳方法是自我測試。這將幫助你找到需要鞏固知識的地方。
問題1:尋找最優策略的兩種主要方法是什麼?
問題2:什麼是貝爾曼方程?
解決方案
貝爾曼方程是一個遞迴方程,其工作原理如下:我們不是從每個狀態的開始計算回報,而是將任何狀態的價值視為:
Rt+1 + gamma * V(St+1)
即時獎勵 + 後續狀態的折扣價值
問題3:定義貝爾曼方程的每個部分
解決方案

問題4:蒙特卡洛學習方法和時序差分學習方法有什麼區別?
問題5:定義時序差分學習公式的每個部分
解決方案

問題6:定義蒙特卡洛學習公式的每個部分
解決方案

恭喜你完成了本次測驗🥳,如果你遺漏了一些內容,請花時間重新閱讀前面的章節以鞏固(😏)你的知識。
< > 在 GitHub 上更新