深度強化學習課程文件

什麼是基於策略的方法?

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

什麼是基於策略的方法?

強化學習的主要目標是找到能最大化預期累積獎勵的最優策略π\pi^{*}。因為強化學習是基於獎勵假設的:所有目標都可以被描述為最大化預期累積獎勵。

例如,在一場足球比賽中(你將在兩個單元中訓練智慧體),目標是贏得比賽。我們可以在強化學習中將這個目標描述為:最大化射入對手球門的進球數(當球越過球門線時),以及最小化自己球門的失球數

Soccer

基於價值、基於策略和 Actor-Critic 方法

在第一個單元中,我們看到了兩種方法來尋找(或在大多數情況下,近似)這個最優策略π\pi^{*}.

  • 基於價值的方法中,我們學習一個價值函式。

    • 其思想是,一個最優的價值函式會匯出一個最優的策略。π\pi^{*}.
    • 我們的目標是最小化預測值與目標值之間的損失,從而近似真實的動作價值函式。
    • 我們有一個策略,但它是隱式的,因為它是直接從價值函式中生成的。例如,在 Q-Learning 中,我們使用了 (epsilon-) 貪心策略。
  • 另一方面,在基於策略的方法中,我們直接學習近似π\pi^{*}而無需學習一個價值函式。

    • 其思想是對策略進行引數化。例如,使用神經網路πθ\pi_\theta,這個策略將輸出一個關於動作的機率分佈(隨機策略)。
    • stochastic policy
    • 然後,我們的目標是使用梯度上升來最大化這個引數化策略的效能
    • 為了做到這一點,我們控制引數θ\theta它將影響在某個狀態下動作的分佈。
Policy based
  • 下次,我們將學習 Actor-Critic 方法,這是一種結合了基於價值和基於策略的方法。

因此,得益於基於策略的方法,我們可以直接最佳化我們的策略πθ\pi_\theta來輸出一個關於動作的機率分佈πθ(as)\pi_\theta(a|s)從而獲得最佳的累積回報。為此,我們定義一個目標函式J(θ)J(\theta),即預期累積獎勵,並且我們希望找到能夠最大化這個目標函式的 θ\theta

基於策略和策略梯度方法的區別

策略梯度方法,即我們將在本單元學習的內容,是基於策略方法的一個子類。在基於策略的方法中,最佳化過程通常是同策略 (on-policy) 的,因為每次更新時,我們只使用最新版本的πθ\pi_\theta.

這兩種方法的區別在於我們如何最佳化引數θ\theta:

  • 基於策略的方法中,我們直接搜尋最優策略。我們可以透過最大化目標函式的區域性近似來間接最佳化引數θ\theta ,使用的技術包括爬山法、模擬退火或進化策略。
  • 策略梯度方法中,由於它是基於策略方法的子類,我們也是直接搜尋最優策略。但我們透過對目標函式的效能執行梯度上升來直接最佳化引數θ\thetaJ(θ)J(\theta).

在深入探討策略梯度方法的工作原理(目標函式、策略梯度定理、梯度上升等)之前,讓我們先研究一下基於策略方法的優缺點。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.