深度強化學習課程文件

Reinforce 中的方差問題

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Reinforce 中的方差問題

在 Reinforce 中,我們希望根據軌跡的回報高低,按比例增加軌跡中行動的機率

Reinforce
  • 如果回報很高,我們將提高(狀態,行動)組合的機率。
  • 否則,如果回報很低,它將降低(狀態,行動)組合的機率。

這個回報R(τ)R(\tau)是使用蒙特卡洛取樣計算的。我們收集一條軌跡並計算折現回報,並使用此分數來增加或減少該軌跡中採取的每個行動的機率。如果回報很好,所有行動都將透過增加其被採取的可能性而得到“強化”。R(τ)=Rt+1+γRt+2+γ2Rt+3+...R(\tau) = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + ...

這種方法的優點是它無偏。由於我們沒有估計回報,我們只使用我們獲得的真實回報。

鑑於環境的隨機性(一個回合中發生的隨機事件)和策略的隨機性,軌跡可能導致不同的回報,這可能導致高方差。因此,相同的起始狀態可能導致非常不同的回報。正因為如此,從相同狀態開始的回報在不同回合中可能會有顯著差異

variance

解決方案是透過使用大量軌跡來緩解方差,希望任何一條軌跡中引入的方差都能在總體上得到減少,並提供回報的“真實”估計。

然而,顯著增加批次大小會降低樣本效率。因此我們需要尋找額外的機制來減少方差。


如果您想深入瞭解深度強化學習中方差和偏差權衡的問題,您可以檢視以下兩篇文章:


< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.