深度強化學習課程文件

使用 Sample-Factory 介紹 PPO

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

使用 Sample-Factory 介紹 PPO

thumbnail

在單元 8 的第二部分中,我們將深入研究 PPO 最佳化,使用 Sample-Factory(一個 PPO 演算法的非同步實現)來訓練我們的智慧體玩 vizdoom(Doom 的開源版本)。

在 Notebook 中,你將訓練你的智慧體玩 Health Gathering 關卡,智慧體必須收集醫療包以避免死亡。之後,你可以訓練你的智慧體玩更復雜的關卡,例如 Deathmatch

Environment

聽起來很激動人心?讓我們開始吧!🚀

本次實踐由 Hugging Face 的機器學習研究科學家 Edward Beeching 製作。他曾參與 Godot 強化學習智慧體專案,這是一個用於在 Godot 遊戲引擎中開發環境和智慧體的開源介面。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.