策略梯度法的優缺點

此時，你可能會問：“但是深度Q學習很棒啊！為什麼要使用策略梯度法？”為了回答這個問題，我們來研究一下**策略梯度法的優缺點**。

優點

相對於基於價值的方法，它有多個優點。我們來看看其中一些。

我們可以直接估計策略，而無需儲存額外的資料（動作值）。

策略梯度法可以**學習隨機策略，而價值函式不能**。

這有兩個結果：

舉個例子：我們有一臺智慧吸塵器，它的目標是吸塵並避免殺死倉鼠。

我們的吸塵器只能感知牆壁的位置。

問題在於，**兩個紅色（彩色）狀態是混疊狀態，因為智慧體對每個狀態都感知到上方和下方的牆壁**。

在確定性策略下，策略在處於紅色狀態時要麼總是向右移動，要麼總是向左移動。**這兩種情況都會導致我們的智慧體陷入困境，永遠無法吸到灰塵**。

在基於價值的強化學習演算法下，我們學習一種**準確定性策略**（“貪婪 ε 策略”）。因此，我們的智慧體在**找到灰塵之前可能會花費大量時間**。

另一方面，最優的隨機策略在紅色（彩色）狀態下**會隨機向左或向右移動**。因此，它**不會卡住，並且會以很高的機率達到目標狀態**。

深度Q學習的問題在於，它們的**預測在每個時間步，給定當前狀態下，為每個可能的動作分配一個分數（最大預期未來獎勵）**。

但是，如果我們的動作可能性是無限的呢？

例如，對於自動駕駛汽車，在每個狀態下，您可能有（近乎）無限的動作選擇（將方向盤轉動 15°、17.2°、19.4°、鳴笛等）。**我們需要為每個可能的動作輸出一個 Q 值**！而**從連續輸出中選擇最大動作本身就是一個最佳化問題**！

相反，使用策略梯度法，我們輸出一個**動作的機率分佈**。

在基於價值的方法中，我們使用激進的運算子來**改變價值函式：我們取 Q 估計值的最大值**。因此，如果估計的動作值發生任意小的變化，導致不同的動作具有最大值，則動作機率可能會發生劇烈變化。

例如，如果在訓練過程中，最佳動作是左（Q 值為 0.22），而在訓練步驟後，最佳動作變為右（因為右側的 Q 值變為 0.23），那麼我們極大地改變了策略，因為現在策略大部分時間會選擇右而不是左。

另一方面，在策略梯度法中，隨機策略的動作偏好（採取動作的機率）**隨時間平穩變化**。

當然，策略梯度法也有一些缺點：

👉 如果你想深入瞭解策略梯度法的優缺點，你可以檢視這個影片。