深度強化學習課程文件

引言

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

簡介多智慧體強化學習 (MARL) 簡介設計多智慧體系統自我博弈 (Self-Play) 讓我們訓練一支足球隊來擊敗同學的隊伍 (AI vs. AI) 測驗結論補充閱讀

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

簡介

自本課程開始以來，我們學習了在*單智慧體系統*中訓練智慧體，其中我們的智慧體在環境中是獨自存在的：它**不與其他智慧體合作或協作**。

這效果很好，而且單智慧體系統在許多應用中都很有用。

Patchwork — 自課程開始以來你訓練過的所有環境的拼湊圖

但是，作為人類，**我們生活在一個多智慧體的世界裡**。我們的智慧來自於與其他智慧體的互動。因此，我們的**目標是創造能夠與其他人類和其他智慧體互動的智慧體**。

因此，我們必須研究如何在*多智慧體系統*中訓練深度強化學習智慧體，以構建能夠適應、協作或競爭的強大智慧體。

所以今天我們將要**學習多智慧體強化學習 (MARL) 這個引人入勝的主題的基礎知識**。

最激動人心的部分是，在本單元中，你將在多智慧體系統中訓練你的第一個智慧體：**一支需要擊敗對手的 2vs2 足球隊**。

課程維護通知 🚧

請注意，此**深度強化學習課程現在處於低維護狀態**。然而，它**仍然是學習深度強化學習理論和實踐的絕佳資源**。

請牢記以下幾點

單元 7 (AI vs AI) ：此功能目前無法使用。但是，你仍然可以訓練你的智慧體踢足球並觀察其表現。但 AI vs AI 足球的排行榜已關閉。

SoccerTwos — 此環境由Unity MLAgents 團隊建立。

那麼，讓我們開始吧！

< > 在 GitHub 上更新

←補充閱讀多智慧體強化學習 (MARL) 簡介→

© . This site is unofficial and not affiliated with Hugging Face, Inc.