Reinforce 中的方差問題

在 Reinforce 中，我們希望根據軌跡的回報高低，按比例增加軌跡中行動的機率。

如果回報很高，我們將提高（狀態，行動）組合的機率。
否則，如果回報很低，它將降低（狀態，行動）組合的機率。

這個回報 $R(\tau)$ 是使用蒙特卡洛取樣計算的。我們收集一條軌跡並計算折現回報，並使用此分數來增加或減少該軌跡中採取的每個行動的機率。如果回報很好，所有行動都將透過增加其被採取的可能性而得到“強化”。 $R(\tau) = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ...$

這種方法的優點是它無偏。由於我們沒有估計回報，我們只使用我們獲得的真實回報。

鑑於環境的隨機性（一個回合中發生的隨機事件）和策略的隨機性，軌跡可能導致不同的回報，這可能導致高方差。因此，相同的起始狀態可能導致非常不同的回報。正因為如此，從相同狀態開始的回報在不同回合中可能會有顯著差異。

解決方案是透過使用大量軌跡來緩解方差，希望任何一條軌跡中引入的方差都能在總體上得到減少，並提供回報的“真實”估計。

然而，顯著增加批次大小會降低樣本效率。因此我們需要尋找額外的機制來減少方差。

如果您想深入瞭解深度強化學習中方差和偏差權衡的問題，您可以檢視以下兩篇文章：

< > 在 GitHub 上更新

深度強化學習課程

Reinforce 中的方差問題