深度強化學習課程文件

強化學習（RL）的（自動）課程學習

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

簡介基於模型的強化學習離線與線上強化學習泛化強化學習來自人類反饋的強化學習決策 Transformer 與離線強化學習強化學習中的語言模型強化學習的（自動）課程學習有趣的嘗試環境虛幻學習智慧體簡介 Godot RL 簡介學生專案強化學習文件簡介

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

強化學習（RL）的（自動）課程學習

雖然本課程中看到的大多數強化學習方法在實踐中表現良好，但在某些情況下，單獨使用它們會失敗。例如，當出現以下情況時：

學習任務很困難，需要逐步獲取技能（例如，當想要讓雙足智慧體學習穿越困難障礙時，它必須首先學習站立，然後行走，然後可能跳躍……）
環境中存在變異（影響難度），並且希望其智慧體對這些變異具有魯棒性

Bipedal — TeachMyAgent

Movable creepers — TeachMyAgent

在這種情況下，似乎需要向我們的強化學習智慧體提供不同的任務，並對其進行組織，使其逐步獲取技能。這種方法被稱為課程學習，通常意味著手工設計的課程（或以特定順序組織的一組任務）。實際上，可以例如控制環境的生成、初始狀態，或使用自博弈並控制提供給強化學習智慧體的對手水平。

由於設計這樣的課程並非總是微不足道的，自動課程學習（ACL）領域提出設計學習建立這種任務組織以最大化強化學習智慧體效能的方法。Portelas 等人提出將 ACL 定義為

… 一系列機制，透過學習調整學習情況的選擇以適應強化學習智慧體的能力，從而自動調整訓練資料的分佈。

例如，OpenAI 使用領域隨機化（他們在環境中應用隨機變化）來使機器人手解決魔方。

OpenAI - 用機器人手解決魔方

最後，您可以透過控制環境變化甚至繪製地形來體驗在 TeachMyAgent 基準測試中訓練的智慧體的魯棒性 👇

Demo — https://huggingface.co/spaces/flowers-team/Interactive_DeepRL_Demo

進一步閱讀

欲瞭解更多資訊，我們建議您查閱以下資源

領域概述

最新方法

作者

本節由 Clément Romac 撰寫

< > 在 GitHub 上更新

←強化學習中的語言模型有趣的嘗試環境→

© . This site is unofficial and not affiliated with Hugging Face, Inc.