深度強化學習課程文件

Q-學習導論

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Q-學習導論

Unit 2 thumbnail

在本課程的第一單元中,我們學習了強化學習(RL)、RL 過程以及解決 RL 問題的不同方法。我們還訓練了我們的第一個智慧體並將它們上傳到 Hugging Face Hub。

在本單元中,我們將深入探討一種強化學習方法:基於價值的方法,並學習我們的第一個 RL 演算法:Q-學習。

我們還將從頭開始實現我們的第一個 RL 智慧體,一個 Q-學習智慧體,並將在兩個環境中訓練它

  1. Frozen-Lake-v1(無滑倒版本):我們的智慧體將需要從起始狀態(S)到達目標狀態(G),只能在冰凍的瓷磚(F)上行走,並避開洞(H)。
  2. 一輛自動駕駛出租車:我們的智慧體將需要學習導航城市,以將乘客從 A 點運送到 B 點。
Environments

具體來說,我們將

  • 學習基於價值的方法
  • 學習蒙特卡洛和時序差分學習之間的區別
  • 研究並實現我們的第一個 RL 演算法:Q-學習。

如果你想在深度 Q-學習上工作,本單元至關重要:深度 Q-學習是第一個玩 Atari 遊戲並在其中一些遊戲(如打磚塊、太空侵略者等)中超越人類水平的深度 RL 演算法。

那麼,我們開始吧!🚀

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.