深度強化學習課程文件
強化學習(RL)的(自動)課程學習
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
強化學習(RL)的(自動)課程學習
雖然本課程中看到的大多數強化學習方法在實踐中表現良好,但在某些情況下,單獨使用它們會失敗。例如,當出現以下情況時:
- 學習任務很困難,需要逐步獲取技能(例如,當想要讓雙足智慧體學習穿越困難障礙時,它必須首先學習站立,然後行走,然後可能跳躍……)
- 環境中存在變異(影響難度),並且希望其智慧體對這些變異具有魯棒性
在這種情況下,似乎需要向我們的強化學習智慧體提供不同的任務,並對其進行組織,使其逐步獲取技能。這種方法被稱為課程學習,通常意味著手工設計的課程(或以特定順序組織的一組任務)。實際上,可以例如控制環境的生成、初始狀態,或使用自博弈並控制提供給強化學習智慧體的對手水平。
由於設計這樣的課程並非總是微不足道的,自動課程學習(ACL)領域提出設計學習建立這種任務組織以最大化強化學習智慧體效能的方法。Portelas 等人提出將 ACL 定義為
… 一系列機制,透過學習調整學習情況的選擇以適應強化學習智慧體的能力,從而自動調整訓練資料的分佈。
例如,OpenAI 使用領域隨機化(他們在環境中應用隨機變化)來使機器人手解決魔方。
最後,您可以透過控制環境變化甚至繪製地形來體驗在 TeachMyAgent 基準測試中訓練的智慧體的魯棒性 👇
進一步閱讀
欲瞭解更多資訊,我們建議您查閱以下資源
領域概述
最新方法
作者
本節由 Clément Romac 撰寫
< > 在 GitHub 上更新