深度強化學習課程文件

強化學習中的“深度”

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

導論什麼是強化學習？強化學習框架任務型別探索/利用權衡解決強化學習問題的兩種主要方法深度強化學習中的“深度”總結詞彙表實操測驗結論延伸閱讀

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

強化學習中的“深度”

到目前為止我們談論的是強化學習。但“深度”又體現在哪裡呢？

深度強化學習引入了深度神經網路來解決強化學習問題——因此得名“深度”。

例如，在下一個單元中，我們將學習兩種基於價值的演算法：Q-學習（經典強化學習）和深度Q-學習。

你會發現不同之處在於，第一種方法中，我們使用傳統演算法來建立一個Q表格，幫助我們找到每個狀態下應採取的行動。

在第二種方法中，我們將使用神經網路（來近似Q值）。

Value based RL — 圖示靈感來源於Udacity的Q學習筆記本

如果你不熟悉深度學習，你絕對應該觀看FastAI面向程式設計師的實用深度學習課程（免費）。

< > 在 GitHub 上更新

←解決強化學習問題的兩種主要方法總結→

© . This site is unofficial and not affiliated with Hugging Face, Inc.