深度強化學習課程文件
中期回顧
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
中期回顧
在深入學習 Q-Learning 之前,讓我們先總結一下剛剛學到的知識。
我們有兩種基於價值的函式:
- 狀態價值函式:輸出如果智慧體從給定狀態開始,並在此後永遠按照策略行動所期望的回報。
- 動作價值函式:輸出如果智慧體從給定狀態開始,在該狀態下采取給定動作,然後在此後永遠按照策略行動所期望的回報。
- 在基於價值的方法中,我們不是學習策略,而是手動定義策略,並學習一個價值函式。如果我們有一個最優價值函式,我們就會有一個最優策略。
有兩種方法可以更新價值函式:
- 對於蒙特卡羅方法,我們從一個完整的episode(回合)更新價值函式,因此我們使用該episode的實際折扣回報。
- 對於時序差分學習方法,我們從一個步驟更新價值函式,替換未知量替換為一個被稱為 TD 目標的估計回報。
< > 在 GitHub 上更新