深度強化學習課程文件

第二份測驗

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

第二份測驗

學習和避免能力錯覺的最佳方法是測試自己。這將幫助你找到需要鞏固知識的地方

問題1:什麼是Q-學習?

問題2:什麼是Q-表?

問題3:為什麼如果我們有一個最優Q-函式Q*,我們就會有一個最優策略?

解決方案

因為如果我們有一個最優Q-函式,我們就有一個最優策略,因為我們知道對於每個狀態,應該採取什麼最佳行動。

link value policy

問題4:你能解釋一下什麼是ε-貪婪策略嗎?

解決方案ε-貪婪策略是一種處理探索/利用權衡的策略。

其思想是,我們定義ε = 1.0。

  • 1 - ε的機率:我們進行利用(即我們的代理選擇具有最高狀態-行動對價值的行動)。
  • ε的機率:我們進行探索(嘗試隨機行動)。
Epsilon Greedy

問題5:我們如何更新狀態-行動對的Q值?

Q Update exercise
解決方案 Q Update exercise

問題6:線上策略和離線策略有什麼區別?

解決方案 On/off policy

恭喜你完成了本次測驗🥳,如果你遺漏了一些內容,請花時間重新閱讀該章節以鞏固(😏)你的知識。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.