深度強化學習課程文件

測驗

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

測驗

學習和避免能力錯覺的最佳方法是自我測試。這將幫助你找出需要鞏固知識的地方

Q1: 我們提到 Q-Learning 是一種表格法。什麼是表格法?

解決方案

表格法是一種問題型別,其中狀態空間和動作空間足夠小,可以將近似值函式表示為陣列和表格。例如,Q-Learning 就是一種表格法,因為我們使用表格來表示狀態和動作值對。

Q2: 為什麼我們不能使用經典的 Q-Learning 來解決 Atari 遊戲?

Q3: 為什麼在深度 Q-Learning 中,我們使用幀作為輸入時,要將四幀堆疊在一起?

解決方案

我們將幀堆疊在一起,因為這有助於我們處理時間限制問題:一幀不足以捕獲時間資訊。例如,在乒乓球遊戲中,如果我們的代理只獲得一幀,它將無法知道球的方向

Temporal limitation Temporal limitation

Q4: 深度 Q-Learning 的兩個階段是什麼?

Q5: 為什麼我們在深度 Q-Learning 中建立回放記憶?

解決方案

1. 更有效地利用訓練過程中的經驗

通常,線上強化學習中,代理與環境互動,獲得經驗(狀態、動作、獎勵和下一個狀態),從中學習(更新神經網路),然後丟棄它們。這效率不高。但是,透過經驗回放,我們建立一個回放緩衝區,用於儲存可以在訓練期間重複使用的經驗樣本

2. 避免遺忘之前的經驗並減少經驗之間的相關性

如果我們給神經網路提供連續的經驗樣本,就會出現一個問題:它傾向於隨著新經驗的覆蓋而忘記之前的經驗。例如,如果我們先在第一級,然後是第二級(不同),我們的代理可能會忘記如何在第一級中表現和玩耍。

Q6: 我們如何使用雙重深度 Q-Learning?

解決方案

當我們計算 Q 目標時,我們使用兩個網路來將動作選擇與目標 Q 值生成解耦。我們

  • 使用我們的 DQN 網路選擇下一個狀態的最佳動作(具有最高 Q 值的動作)。

  • 使用我們的目標網路計算在下一個狀態下執行該動作的目標 Q 值

恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,花點時間重新閱讀章節以鞏固 (😏) 你的知識。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.