深度強化學習課程文件
使用 Sample-Factory 介紹 PPO
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
使用 Sample-Factory 介紹 PPO
在單元 8 的第二部分中,我們將深入研究 PPO 最佳化,使用 Sample-Factory(一個 PPO 演算法的非同步實現)來訓練我們的智慧體玩 vizdoom(Doom 的開源版本)。
在 Notebook 中,你將訓練你的智慧體玩 Health Gathering 關卡,智慧體必須收集醫療包以避免死亡。之後,你可以訓練你的智慧體玩更復雜的關卡,例如 Deathmatch。
聽起來很激動人心?讓我們開始吧!🚀
本次實踐由 Hugging Face 的機器學習研究科學家 Edward Beeching 製作。他曾參與 Godot 強化學習智慧體專案,這是一個用於在 Godot 遊戲引擎中開發環境和智慧體的開源介面。
< > 在 GitHub 上更新