深度強化學習課程文件
引言
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
簡介
在第4單元中,我們學習了第一個基於策略的演算法,稱為 Reinforce。
在基於策略的方法中,我們旨在直接最佳化策略,而不使用價值函式。更準確地說,Reinforce是基於策略的方法的一個子類,稱為策略梯度方法。這個子類透過使用梯度上升估計最優策略的權重來直接最佳化策略。
我們看到Reinforce表現良好。然而,由於我們使用蒙特卡羅取樣來估計回報(我們使用整個回合來計算回報),策略梯度估計中存在顯著的方差。
請記住,策略梯度估計是回報最陡峭增加的方向。換句話說,它是如何更新我們的策略權重,以便導致良好回報的動作有更高的被採取的機率。蒙特卡羅方差,我們將在本單元中進一步研究它,導致訓練速度變慢,因為我們需要大量的樣本來緩解它。
所以今天我們將學習Actor-Critic方法,這是一種結合了基於價值和基於策略方法的混合架構,透過使用以下方式減少方差來幫助穩定訓練:
- Actor 控制我們的智慧體如何行動(基於策略的方法)
- Critic 衡量所採取行動的好壞(基於價值的方法)
我們將研究其中一種混合方法,優勢Actor Critic (A2C),並使用Stable-Baselines3在機器人環境中訓練我們的智慧體。我們將訓練
- 一個機械臂🦾移動到正確的位置。
聽起來很激動人心?讓我們開始吧!
< > 在 GitHub 上更新