深度強化學習課程文件

中期回顧

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

中期回顧

在深入學習 Q-Learning 之前,讓我們先總結一下剛剛學到的知識。

我們有兩種基於價值的函式:

  • 狀態價值函式:輸出如果智慧體從給定狀態開始,並在此後永遠按照策略行動所期望的回報。
  • 動作價值函式:輸出如果智慧體從給定狀態開始,在該狀態下采取給定動作,然後在此後永遠按照策略行動所期望的回報。
  • 在基於價值的方法中,我們不是學習策略,而是手動定義策略,並學習一個價值函式。如果我們有一個最優價值函式,我們就會有一個最優策略。

有兩種方法可以更新價值函式:

  • 對於蒙特卡羅方法,我們從一個完整的episode(回合)更新價值函式,因此我們使用該episode的實際折扣回報。
  • 對於時序差分學習方法,我們從一個步驟更新價值函式,替換未知量GtG_t替換為一個被稱為 TD 目標的估計回報。
總結 < > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.