深度強化學習課程文件

引言

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

簡介

Unit 8

在第六單元中,我們學習了 Advantage Actor Critic (A2C),這是一種結合了基於價值和基於策略方法的混合架構,透過減少方差來穩定訓練,它包括:

  • 一個 Actor,控制我們的智慧體如何行動(基於策略的方法)。
  • 一個 Critic,衡量所採取行動的好壞(基於價值的方法)。

今天我們將學習近端策略最佳化(PPO),這是一種透過避免過大的策略更新來提高智慧體訓練穩定性的架構。為此,我們使用一個比率來表示當前策略和舊策略之間的差異,並將這個比率截斷到特定範圍[1ϵ,1+ϵ] [1 - \epsilon, 1 + \epsilon] .

這樣做將確保我們的策略更新不會過大,從而使訓練更加穩定。

本單元分為兩部分

  • 在第一部分中,你將學習 PPO 的理論,並使用 CleanRL 實現從頭開始編寫你的 PPO 智慧體。為了測試其魯棒性,你將使用 LunarLander-v2。LunarLander-v2 是你開始本課程時使用的第一個環境。那時你還不知道 PPO 如何工作,現在,你已經可以從頭開始編寫並訓練它。這真是太棒了 🤩
  • 在第二部分中,我們將透過使用 Sample-Factory 深入研究 PPO 最佳化,並訓練一個玩 Vizdoom(Doom 的開源版本)的智慧體。
Environment
這些是你將用來訓練智慧體的環境:VizDoom 環境

聽起來很激動人心?讓我們開始吧!🚀

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.