深度強化學習課程文件
什麼是基於策略的方法?
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
什麼是基於策略的方法?
強化學習的主要目標是找到能最大化預期累積獎勵的最優策略。因為強化學習是基於獎勵假設的:所有目標都可以被描述為最大化預期累積獎勵。
例如,在一場足球比賽中(你將在兩個單元中訓練智慧體),目標是贏得比賽。我們可以在強化學習中將這個目標描述為:最大化射入對手球門的進球數(當球越過球門線時),以及最小化自己球門的失球數。
基於價值、基於策略和 Actor-Critic 方法
在第一個單元中,我們看到了兩種方法來尋找(或在大多數情況下,近似)這個最優策略.
在基於價值的方法中,我們學習一個價值函式。
- 其思想是,一個最優的價值函式會匯出一個最優的策略。.
- 我們的目標是最小化預測值與目標值之間的損失,從而近似真實的動作價值函式。
- 我們有一個策略,但它是隱式的,因為它是直接從價值函式中生成的。例如,在 Q-Learning 中,我們使用了 (epsilon-) 貪心策略。
另一方面,在基於策略的方法中,我們直接學習近似而無需學習一個價值函式。
- 其思想是對策略進行引數化。例如,使用神經網路,這個策略將輸出一個關於動作的機率分佈(隨機策略)。

- 然後,我們的目標是使用梯度上升來最大化這個引數化策略的效能。
- 為了做到這一點,我們控制引數它將影響在某個狀態下動作的分佈。
- 下次,我們將學習 Actor-Critic 方法,這是一種結合了基於價值和基於策略的方法。
因此,得益於基於策略的方法,我們可以直接最佳化我們的策略來輸出一個關於動作的機率分佈從而獲得最佳的累積回報。為此,我們定義一個目標函式,即預期累積獎勵,並且我們希望找到能夠最大化這個目標函式的 值。
基於策略和策略梯度方法的區別
策略梯度方法,即我們將在本單元學習的內容,是基於策略方法的一個子類。在基於策略的方法中,最佳化過程通常是同策略 (on-policy) 的,因為每次更新時,我們只使用最新版本的.
這兩種方法的區別在於我們如何最佳化引數:
- 在基於策略的方法中,我們直接搜尋最優策略。我們可以透過最大化目標函式的區域性近似來間接最佳化引數 ,使用的技術包括爬山法、模擬退火或進化策略。
- 在策略梯度方法中,由於它是基於策略方法的子類,我們也是直接搜尋最優策略。但我們透過對目標函式的效能執行梯度上升來直接最佳化引數 。.
在深入探討策略梯度方法的工作原理(目標函式、策略梯度定理、梯度上升等)之前,讓我們先研究一下基於策略方法的優缺點。
< > 在 GitHub 上更新