深度強化學習課程文件
深度Q學習
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
深度Q學習
在上一單元中,我們學習了第一個強化學習演算法:Q學習,並從頭開始實現,在FrozenLake-v1 ☃️和Taxi-v3 🚕兩個環境中進行了訓練。
我們用這個簡單的演算法取得了優異的成績,但這些環境相對簡單,因為狀態空間是離散且很小(FrozenLake-v1有16個不同的狀態,Taxi-v3有500個)。相比之下,雅達利遊戲中的狀態空間可以包含 到 個狀態。
但正如我們將看到的,在大型狀態空間環境中,生成和更新Q表可能變得無效。
因此,在本單元中,我們將學習我們的第一個深度強化學習智慧體:深度Q學習。深度Q學習不再使用Q表,而是使用一個神經網路,該網路以狀態為輸入,並根據該狀態近似每個動作的Q值。
我們將使用RL-Zoo來訓練它玩太空侵略者和其他雅達利環境,RL-Zoo是一個使用Stable-Baselines進行強化學習訓練的框架,提供用於訓練、評估智慧體、調整超引數、繪製結果和錄製影片的指令碼。
那麼,我們開始吧!🚀
< > 在 GitHub 上更新