深度強化學習課程文件
測驗
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
測驗
學習和避免能力錯覺的最佳方法是自我測試。這將幫助你找出需要鞏固知識的地方。
Q1: 我們提到 Q-Learning 是一種表格法。什麼是表格法?
解決方案
表格法是一種問題型別,其中狀態空間和動作空間足夠小,可以將近似值函式表示為陣列和表格。例如,Q-Learning 就是一種表格法,因為我們使用表格來表示狀態和動作值對。
Q2: 為什麼我們不能使用經典的 Q-Learning 來解決 Atari 遊戲?
Q3: 為什麼在深度 Q-Learning 中,我們使用幀作為輸入時,要將四幀堆疊在一起?
解決方案
我們將幀堆疊在一起,因為這有助於我們處理時間限制問題:一幀不足以捕獲時間資訊。例如,在乒乓球遊戲中,如果我們的代理只獲得一幀,它將無法知道球的方向。

Q4: 深度 Q-Learning 的兩個階段是什麼?
Q5: 為什麼我們在深度 Q-Learning 中建立回放記憶?
解決方案
1. 更有效地利用訓練過程中的經驗
通常,線上強化學習中,代理與環境互動,獲得經驗(狀態、動作、獎勵和下一個狀態),從中學習(更新神經網路),然後丟棄它們。這效率不高。但是,透過經驗回放,我們建立一個回放緩衝區,用於儲存可以在訓練期間重複使用的經驗樣本。
2. 避免遺忘之前的經驗並減少經驗之間的相關性
如果我們給神經網路提供連續的經驗樣本,就會出現一個問題:它傾向於隨著新經驗的覆蓋而忘記之前的經驗。例如,如果我們先在第一級,然後是第二級(不同),我們的代理可能會忘記如何在第一級中表現和玩耍。
Q6: 我們如何使用雙重深度 Q-Learning?
解決方案
當我們計算 Q 目標時,我們使用兩個網路來將動作選擇與目標 Q 值生成解耦。我們
使用我們的 DQN 網路選擇下一個狀態的最佳動作(具有最高 Q 值的動作)。
使用我們的目標網路計算在下一個狀態下執行該動作的目標 Q 值。
恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,花點時間重新閱讀章節以鞏固 (😏) 你的知識。
< > 在 GitHub 上更新