深度強化學習課程文件

中期回顧

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

引言什麼是強化學習？簡短回顧兩種基於價值的方法貝爾曼方程，簡化我們的價值估計蒙特卡羅 vs 時序差分學習中期回顧中期測驗 Q-學習介紹 Q-學習示例 Q-學習回顧詞彙表動手實踐 Q-學習測驗總結延伸閱讀

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

中期回顧

在深入學習 Q-Learning 之前，讓我們先總結一下剛剛學到的知識。

我們有兩種基於價值的函式：

狀態價值函式：輸出如果智慧體從給定狀態開始，並在此後永遠按照策略行動所期望的回報。
動作價值函式：輸出如果智慧體從給定狀態開始，在該狀態下采取給定動作，然後在此後永遠按照策略行動所期望的回報。
在基於價值的方法中，我們不是學習策略，而是手動定義策略，並學習一個價值函式。如果我們有一個最優價值函式，我們就會有一個最優策略。

有兩種方法可以更新價值函式：

對於蒙特卡羅方法，我們從一個完整的episode（回合）更新價值函式，因此我們使用該episode的實際折扣回報。
對於時序差分學習方法，我們從一個步驟更新價值函式，替換未知量 $G_t$ 替換為一個被稱為 TD 目標的估計回報。

< > 在 GitHub 上更新

←蒙特卡羅 vs 時序差分學習中期測驗→

© . This site is unofficial and not affiliated with Hugging Face, Inc.