深度強化學習課程文件
Q-學習導論
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
Q-學習導論
在本課程的第一單元中,我們學習了強化學習(RL)、RL 過程以及解決 RL 問題的不同方法。我們還訓練了我們的第一個智慧體並將它們上傳到 Hugging Face Hub。
在本單元中,我們將深入探討一種強化學習方法:基於價值的方法,並學習我們的第一個 RL 演算法:Q-學習。
我們還將從頭開始實現我們的第一個 RL 智慧體,一個 Q-學習智慧體,並將在兩個環境中訓練它
- Frozen-Lake-v1(無滑倒版本):我們的智慧體將需要從起始狀態(S)到達目標狀態(G),只能在冰凍的瓷磚(F)上行走,並避開洞(H)。
- 一輛自動駕駛出租車:我們的智慧體將需要學習導航城市,以將乘客從 A 點運送到 B 點。
具體來說,我們將
- 學習基於價值的方法。
- 學習蒙特卡洛和時序差分學習之間的區別。
- 研究並實現我們的第一個 RL 演算法:Q-學習。
如果你想在深度 Q-學習上工作,本單元至關重要:深度 Q-學習是第一個玩 Atari 遊戲並在其中一些遊戲(如打磚塊、太空侵略者等)中超越人類水平的深度 RL 演算法。
那麼,我們開始吧!🚀
< > 在 GitHub 上更新