深度強化學習課程文件

使用 Sample-Factory 介紹 PPO

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

介紹 Sample Factory 和 Doom 上的 PPO 結論

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

使用 Sample-Factory 介紹 PPO

在單元 8 的第二部分中，我們將深入研究 PPO 最佳化，使用 Sample-Factory（一個 PPO 演算法的非同步實現）來訓練我們的智慧體玩 vizdoom（Doom 的開源版本）。

在 Notebook 中，你將訓練你的智慧體玩 Health Gathering 關卡，智慧體必須收集醫療包以避免死亡。之後，你可以訓練你的智慧體玩更復雜的關卡，例如 Deathmatch。

Environment

聽起來很激動人心？讓我們開始吧！🚀

本次實踐由 Hugging Face 的機器學習研究科學家 Edward Beeching 製作。他曾參與 Godot 強化學習智慧體專案，這是一個用於在 Godot 遊戲引擎中開發環境和智慧體的開源介面。

< > 在 GitHub 上更新

←補充閱讀使用 Sample Factory 和 Doom 的 PPO→

© . This site is unofficial and not affiliated with Hugging Face, Inc.