深度強化學習課程文件

PPO 背後的直覺

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

簡介 PPO 背後的直覺介紹截斷代理目標函式視覺化截斷代理目標函式使用 CleanRL 進行 PPO 總結延伸閱讀

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

PPO 背後的直覺

近端策略最佳化 (PPO) 的想法是，我們希望透過限制在每個訓練週期對策略進行的更改來提高策略的訓練穩定性：我們希望避免策略更新過大。

原因有兩點：

根據經驗，在訓練過程中較小的策略更新更有可能收斂到最優解。
策略更新中過大的步長可能導致“跌落懸崖”（得到一個糟糕的策略），並且需要很長時間甚至無法恢復。

Policy Update cliff — 採用較小的策略更新來提高訓練穩定性

因此，使用 PPO 時，我們保守地更新策略。為此，我們需要透過計算當前策略與舊策略之間的比率來衡量當前策略與舊策略相比改變了多少。我們將此比率截斷在一個範圍內 $[1 - \epsilon, 1 + \epsilon]$ ，這意味著我們消除了當前策略離舊策略過遠的動力（因此稱為近端策略）。

< > 在 GitHub 上更新

←簡介介紹截斷代理目標函式→

© . This site is unofficial and not affiliated with Hugging Face, Inc.