深度強化學習課程文件

PPO 背後的直覺

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

PPO 背後的直覺

近端策略最佳化 (PPO) 的想法是,我們希望透過限制在每個訓練週期對策略進行的更改來提高策略的訓練穩定性:我們希望避免策略更新過大。

原因有兩點:

  • 根據經驗,在訓練過程中較小的策略更新更有可能收斂到最優解。
  • 策略更新中過大的步長可能導致“跌落懸崖”(得到一個糟糕的策略),並且需要很長時間甚至無法恢復。
Policy Update cliff
採用較小的策略更新來提高訓練穩定性
修改自 RL — Proximal Policy Optimization (PPO) Jonathan Hui 解釋

因此,使用 PPO 時,我們保守地更新策略。為此,我們需要透過計算當前策略與舊策略之間的比率來衡量當前策略與舊策略相比改變了多少。我們將此比率截斷在一個範圍內[1ϵ,1+ϵ] [1 - \epsilon, 1 + \epsilon] ,這意味著我們消除了當前策略離舊策略過遠的動力(因此稱為近端策略)。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.