Hugging Face
模型
資料集
空間
社群
文件
企業版
定價
登入
註冊
Learn
深度強化學習課程文件
延伸閱讀
深度強化學習課程
🏡 檢視所有資源
Agents 課程
音訊課程
社群計算機視覺課程
深度強化學習課程
擴散模型課程
LLM 課程
MCP 課程
機器學習 3D 課程
遊戲機器學習課程
開源 AI 食譜
搜尋文件
英
第 0 單元:課程歡迎辭
單元1. 深度強化學習導論
獎勵單元1. Huggy深度強化學習導論
直播1. 課程如何運作,問答環節,以及與Huggy玩耍
單元2. Q-Learning導論
引言
什麼是強化學習?簡短回顧
兩種基於價值的方法
貝爾曼方程,簡化我們的價值估計
蒙特卡羅 vs 時序差分學習
中期回顧
中期測驗
Q-學習介紹
Q-學習示例
Q-學習回顧
詞彙表
實戰
Q-學習測驗
結論
延伸閱讀
單元3. 雅達利遊戲深度Q-Learning
獎勵單元2. 使用Optuna進行自動超引數調優
單元4. PyTorch策略梯度
單元5. Unity ML-Agents導論
單元6. 機器人環境Actor-Critic方法
單元7. 多智慧體和AI對AI導論
單元8. 第1部分 近端策略最佳化 (PPO)
單元8. 第2部分 使用Doom的近端策略最佳化 (PPO)
獎勵單元3. 強化學習高階主題
獎勵單元5. 使用Godot RL Agents進行模仿學習
結業證書和祝賀
加入 Hugging Face 社群
並獲得增強的文件體驗
在模型、資料集和 Spaces 上進行協作
透過加速推理獲得更快的示例
切換文件主題
註冊
開始使用
延伸閱讀
如果您想深入學習,這些是
可選閱讀材料
。
蒙特卡羅和時序差分學習
深入瞭解蒙特卡羅和時序差分學習
為什麼時序差分 (TD) 方法比蒙特卡羅方法方差更低?
什麼時候蒙特卡羅方法優於時序差分方法?
Q-學習
《強化學習:導論》,Richard Sutton 和 Andrew G. Barto 著,第 5、6、7 章
深度強化學習基礎系列,Pieter Abbeel 的 L2 深度 Q 學習
<
>
在 GitHub 上更新
←
結論
引言
→
延伸
閱讀
蒙特
卡羅和
時序
差分
學習
Q-
學習
©
. This site is unofficial and not affiliated with Hugging Face, Inc.