測驗

學習和避免能力錯覺的最佳方法是自我測試。這將幫助你找出需要鞏固知識的地方。

解決方案

表格法是一種問題型別，其中狀態空間和動作空間足夠小，可以將近似值函式表示為陣列和表格。例如，Q-Learning 就是一種表格法，因為我們使用表格來表示狀態和動作值對。

解決方案

我們將幀堆疊在一起，因為這有助於我們處理時間限制問題：一幀不足以捕獲時間資訊。例如，在乒乓球遊戲中，如果我們的代理只獲得一幀，它將無法知道球的方向。

解決方案

1. 更有效地利用訓練過程中的經驗

通常，線上強化學習中，代理與環境互動，獲得經驗（狀態、動作、獎勵和下一個狀態），從中學習（更新神經網路），然後丟棄它們。這效率不高。但是，透過經驗回放，我們建立一個回放緩衝區，用於儲存可以在訓練期間重複使用的經驗樣本。

2. 避免遺忘之前的經驗並減少經驗之間的相關性

如果我們給神經網路提供連續的經驗樣本，就會出現一個問題：它傾向於隨著新經驗的覆蓋而忘記之前的經驗。例如，如果我們先在第一級，然後是第二級（不同），我們的代理可能會忘記如何在第一級中表現和玩耍。

解決方案

當我們計算 Q 目標時，我們使用兩個網路來將動作選擇與目標 Q 值生成解耦。我們

恭喜你完成了這個測驗🥳，如果你漏掉了一些內容，花點時間重新閱讀章節以鞏固 (😏) 你的知識。

深度強化學習課程