深度強化學習課程文件
第二份測驗
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
第二份測驗
學習和避免能力錯覺的最佳方法是測試自己。這將幫助你找到需要鞏固知識的地方。
問題1:什麼是Q-學習?
問題2:什麼是Q-表?
問題3:為什麼如果我們有一個最優Q-函式Q*,我們就會有一個最優策略?
解決方案
因為如果我們有一個最優Q-函式,我們就有一個最優策略,因為我們知道對於每個狀態,應該採取什麼最佳行動。

問題4:你能解釋一下什麼是ε-貪婪策略嗎?
解決方案
ε-貪婪策略是一種處理探索/利用權衡的策略。其思想是,我們定義ε = 1.0。
- 以1 - ε的機率:我們進行利用(即我們的代理選擇具有最高狀態-行動對價值的行動)。
- 以ε的機率:我們進行探索(嘗試隨機行動)。

問題5:我們如何更新狀態-行動對的Q值?
解決方案

問題6:線上策略和離線策略有什麼區別?
解決方案

恭喜你完成了本次測驗🥳,如果你遺漏了一些內容,請花時間重新閱讀該章節以鞏固(😏)你的知識。
< > 在 GitHub 上更新