深度強化學習課程文件

Q-學習導論

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

導論什麼是強化學習？簡短回顧兩種基於價值的方法貝爾曼方程，簡化我們的價值估計蒙特卡洛與時序差分學習中期回顧中期測驗 Q-學習介紹一個 Q-學習示例 Q-學習回顧術語表實操 Q-學習測驗結論延伸閱讀

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Q-學習導論

Unit 2 thumbnail

在本課程的第一單元中，我們學習了強化學習（RL）、RL 過程以及解決 RL 問題的不同方法。我們還訓練了我們的第一個智慧體並將它們上傳到 Hugging Face Hub。

在本單元中，我們將深入探討一種強化學習方法：基於價值的方法，並學習我們的第一個 RL 演算法：Q-學習。

我們還將從頭開始實現我們的第一個 RL 智慧體，一個 Q-學習智慧體，並將在兩個環境中訓練它

Frozen-Lake-v1（無滑倒版本）：我們的智慧體將需要從起始狀態（S）到達目標狀態（G），只能在冰凍的瓷磚（F）上行走，並避開洞（H）。
一輛自動駕駛出租車：我們的智慧體將需要學習導航城市，以將乘客從 A 點運送到 B 點。

Environments

具體來說，我們將

學習基於價值的方法。
學習蒙特卡洛和時序差分學習之間的區別。
研究並實現我們的第一個 RL 演算法：Q-學習。

如果你想在深度 Q-學習上工作，本單元至關重要：深度 Q-學習是第一個玩 Atari 遊戲並在其中一些遊戲（如打磚塊、太空侵略者等）中超越人類水平的深度 RL 演算法。

那麼，我們開始吧！🚀

< > 在 GitHub 上更新

←直播 1。課程如何運作、問答以及與 Huggy 🐶 玩耍什麼是強化學習？簡短回顧→

© . This site is unofficial and not affiliated with Hugging Face, Inc.