深度強化學習課程文件
策略梯度法的優缺點
並獲得增強的文件體驗
開始使用
策略梯度法的優缺點
此時,你可能會問:“但是深度Q學習很棒啊!為什麼要使用策略梯度法?”為了回答這個問題,我們來研究一下**策略梯度法的優缺點**。
優點
相對於基於價值的方法,它有多個優點。我們來看看其中一些。
整合的簡易性
我們可以直接估計策略,而無需儲存額外的資料(動作值)。
策略梯度法可以學習隨機策略
策略梯度法可以**學習隨機策略,而價值函式不能**。
這有兩個結果:
我們**不需要手動實現探索/利用的權衡**。由於我們輸出的是動作的機率分佈,智慧體在狀態空間中進行探索,**而不會總是採取相同的軌跡**。
我們還擺脫了**感知混疊**問題。感知混疊是指兩個狀態看起來(或實際上)相同但需要不同動作的情況。
舉個例子:我們有一臺智慧吸塵器,它的目標是吸塵並避免殺死倉鼠。

我們的吸塵器只能感知牆壁的位置。
問題在於,**兩個紅色(彩色)狀態是混疊狀態,因為智慧體對每個狀態都感知到上方和下方的牆壁**。

在確定性策略下,策略在處於紅色狀態時要麼總是向右移動,要麼總是向左移動。**這兩種情況都會導致我們的智慧體陷入困境,永遠無法吸到灰塵**。
在基於價值的強化學習演算法下,我們學習一種**準確定性策略**(“貪婪 ε 策略”)。因此,我們的智慧體在**找到灰塵之前可能會花費大量時間**。
另一方面,最優的隨機策略在紅色(彩色)狀態下**會隨機向左或向右移動**。因此,它**不會卡住,並且會以很高的機率達到目標狀態**。

策略梯度法在高維動作空間和連續動作空間中更有效
深度Q學習的問題在於,它們的**預測在每個時間步,給定當前狀態下,為每個可能的動作分配一個分數(最大預期未來獎勵)**。
但是,如果我們的動作可能性是無限的呢?
例如,對於自動駕駛汽車,在每個狀態下,您可能有(近乎)無限的動作選擇(將方向盤轉動 15°、17.2°、19.4°、鳴笛等)。**我們需要為每個可能的動作輸出一個 Q 值**!而**從連續輸出中選擇最大動作本身就是一個最佳化問題**!
相反,使用策略梯度法,我們輸出一個**動作的機率分佈**。
策略梯度法具有更好的收斂性
在基於價值的方法中,我們使用激進的運算子來**改變價值函式:我們取 Q 估計值的最大值**。因此,如果估計的動作值發生任意小的變化,導致不同的動作具有最大值,則動作機率可能會發生劇烈變化。
例如,如果在訓練過程中,最佳動作是左(Q 值為 0.22),而在訓練步驟後,最佳動作變為右(因為右側的 Q 值變為 0.23),那麼我們極大地改變了策略,因為現在策略大部分時間會選擇右而不是左。
另一方面,在策略梯度法中,隨機策略的動作偏好(採取動作的機率)**隨時間平穩變化**。
缺點
當然,策略梯度法也有一些缺點:
- 通常,策略梯度法會收斂到區域性最大值而不是全域性最優值。
- 策略梯度法進展緩慢,**一步一步地進行:訓練時間可能更長(效率低下)**。
- 策略梯度法可能具有較高的方差。我們將在 actor-critic 單元中探討原因以及如何解決這個問題。
👉 如果你想深入瞭解策略梯度法的優缺點,你可以檢視這個影片。
< > 在 GitHub 上更新