深度強化學習課程文件
引言
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
簡介
在第六單元中,我們學習了 Advantage Actor Critic (A2C),這是一種結合了基於價值和基於策略方法的混合架構,透過減少方差來穩定訓練,它包括:
- 一個 Actor,控制我們的智慧體如何行動(基於策略的方法)。
- 一個 Critic,衡量所採取行動的好壞(基於價值的方法)。
今天我們將學習近端策略最佳化(PPO),這是一種透過避免過大的策略更新來提高智慧體訓練穩定性的架構。為此,我們使用一個比率來表示當前策略和舊策略之間的差異,並將這個比率截斷到特定範圍 .
這樣做將確保我們的策略更新不會過大,從而使訓練更加穩定。
本單元分為兩部分
- 在第一部分中,你將學習 PPO 的理論,並使用 CleanRL 實現從頭開始編寫你的 PPO 智慧體。為了測試其魯棒性,你將使用 LunarLander-v2。LunarLander-v2 是你開始本課程時使用的第一個環境。那時你還不知道 PPO 如何工作,現在,你已經可以從頭開始編寫並訓練它。這真是太棒了 🤩。
- 在第二部分中,我們將透過使用 Sample-Factory 深入研究 PPO 最佳化,並訓練一個玩 Vizdoom(Doom 的開源版本)的智慧體。
聽起來很激動人心?讓我們開始吧!🚀
< > 在 GitHub 上更新