(可選) 策略梯度定理

在這一可選部分，我們將研究如何對我們將用於近似策略梯度的目標函式進行微分。

讓我們首先回顧一下我們的不同公式

目標函式

軌跡的機率（給定動作來自 $\pi_\theta$ ):

所以我們有 $\nabla_\theta J(\theta) = \nabla_\theta \sum_{\tau}P(\tau;\theta)R(\tau)$

我們可以將和的梯度改寫為梯度的和 $= \sum_{\tau} \nabla_\theta (P(\tau;\theta)R(\tau)) = \sum_{\tau} \nabla_\theta P(\tau;\theta)R(\tau)$ 因為 $R(\tau)$ 不依賴於 $\theta$

然後我們將和中的每一項乘以 $\frac{P(\tau;\theta)}{P(\tau;\theta)}$ (因為等於1，所以可以這樣做) $= \sum_{\tau} \frac{P(\tau;\theta)}{P(\tau;\theta)}\nabla_\theta P(\tau;\theta)R(\tau)$

我們可以進一步簡化，因為 $\frac{P(\tau;\theta)}{P(\tau;\theta)}\nabla_\theta P(\tau;\theta) = P(\tau;\theta)\frac{\nabla_\theta P(\tau;\theta)}{P(\tau;\theta)}$ .

因此我們可以將總和改寫為 $P(\tau;\theta)\frac{\nabla_\theta P(\tau;\theta)}{P(\tau;\theta)}= \sum_{\tau} P(\tau;\theta) \frac{\nabla_\theta P(\tau;\theta)}{P(\tau;\theta)}R(\tau)$

然後我們可以使用導數對數技巧（也稱為似然比技巧或REINFORCE技巧），這是一個簡單的微積分規則，意味著 $\nabla_x log f(x) = \frac{\nabla_x f(x)}{f(x)}$

所以鑑於我們有 $\frac{\nabla_\theta P(\tau;\theta)}{P(\tau;\theta)}$ 我們將其轉換為 $\nabla_\theta log P(\tau|\theta)$

這就是我們的似然策略梯度 $\nabla_\theta J(\theta) = \sum_{\tau} P(\tau;\theta) \nabla_\theta log P(\tau;\theta) R(\tau)$

有了這個新公式，我們可以使用軌跡樣本來估計梯度（如果您喜歡，我們可以用基於樣本的估計來近似似然比策略梯度）。 $\nabla_\theta J(\theta) = \frac{1}{m} \sum^{m}_{i=1} \nabla_\theta log P(\tau^{(i)};\theta)R(\tau^{(i)})$ 其中每個 $\tau^{(i)}$ 都是一個取樣軌跡。

但是我們還有一些數學工作要做：我們需要簡化 $\nabla_\theta log P(\tau|\theta)$

我們知道 $\nabla_\theta log P(\tau^{(i)};\theta)= \nabla_\theta log[ \mu(s_0) \prod_{t=0}^{H} P(s_{t+1}^{(i)}|s_{t}^{(i)}, a_{t}^{(i)}) \pi_\theta(a_{t}^{(i)}|s_{t}^{(i)})]$

其中： $\mu(s_0)$ 是初始狀態分佈，並且 $P(s_{t+1}^{(i)}|s_{t}^{(i)}, a_{t}^{(i)})$ 是 MDP 的狀態轉移動態。

我們知道積的對數等於對數的和 $\nabla_{θ} l o g P (τ^{(i)}; θ) = \nabla_{θ} [l o g μ (s_{0}) + \sum_{t = 0}^{H} l o g P (s_{t + 1}^{(i)} ∣ s_{t}^{(i)} a_{t}^{(i)}) + \sum_{t = 0}^{H} l o g π_{θ} (a_{t}^{(i)} ∣ s_{t}^{(i)})] \nabla_\theta log P(\tau^{(i)};\theta)= \nabla_\theta \left[log \mu(s_0) + \sum\limits_{t=0}^{H}log P(s_{t+1}^{(i)}|s_{t}^{(i)} a_{t}^{(i)}) + \sum\limits_{t=0}^{H}log \pi_\theta(a_{t}^{(i)}|s_{t}^{(i)})\right]$

我們還知道和的梯度等於梯度的和 $\nabla_\theta log P(\tau^{(i)};\theta)=\nabla_\theta log\mu(s_0) + \nabla_\theta \sum\limits_{t=0}^{H} log P(s_{t+1}^{(i)}|s_{t}^{(i)} a_{t}^{(i)}) + \nabla_\theta \sum\limits_{t=0}^{H} log \pi_\theta(a_{t}^{(i)}|s_{t}^{(i)})$

由於MDP的初始狀態分佈和狀態轉移動力學不依賴於 $\theta$ ，所以這兩項的導數都是0。因此我們可以刪除它們。

因為 $\nabla_\theta \sum_{t=0}^{H} log P(s_{t+1}^{(i)}|s_{t}^{(i)} a_{t}^{(i)}) = 0$ 和 $\nabla_\theta \mu(s_0) = 0$ $\nabla_\theta log P(\tau^{(i)};\theta) = \nabla_\theta \sum_{t=0}^{H} log \pi_\theta(a_{t}^{(i)}|s_{t}^{(i)})$

我們可以將和的梯度改寫為梯度的和。 $\nabla_\theta log P(\tau^{(i)};\theta)= \sum_{t=0}^{H} \nabla_\theta log \pi_\theta(a_{t}^{(i)}|s_{t}^{(i)})$

因此，估計策略梯度的最終公式為： $\nabla_{\theta} J(\theta) = \hat{g} = \frac{1}{m} \sum^{m}_{i=1} \sum^{H}_{t=0} \nabla_\theta \log \pi_\theta(a^{(i)}_{t} | s_{t}^{(i)})R(\tau^{(i)})$ )R(τ(i))

< > 在 GitHub 上更新

深度強化學習課程

(可選) 策略梯度定理