深度強化學習課程文件
引言
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
介紹
在上一單元中,我們學習了深度 Q 學習。在這個基於價值的深度強化學習演算法中,我們使用深度神經網路來近似某個狀態下每個可能動作的不同 Q 值。
從課程開始以來,我們只研究了基於價值的方法,這些方法將估算價值函式作為找到最優策略的中間步驟。
在基於價值的方法中,策略 (π) 之所以存在,僅僅是因為動作價值的估計,因為策略只是一個函式(例如,貪婪策略),它會根據給定狀態選擇價值最高的動作。
使用基於策略的方法,我們希望直接最佳化策略,而不需要學習價值函式作為中間步驟。
因此,今天,我們將學習基於策略的方法,並研究這些方法的一個子集,稱為策略梯度。然後我們將使用 PyTorch 從頭開始實現第一個策略梯度演算法,即蒙特卡洛 Reinforce。之後,我們將使用 CartPole-v1 和 PixelCopter 環境測試其魯棒性。
然後你將能夠迭代和改進這個實現,以適應更高階的環境。

讓我們開始吧!
< > 在 GitHub 上更新