深度強化學習課程文件

引言

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

簡介

Thumbnail

在第4單元中,我們學習了第一個基於策略的演算法,稱為 Reinforce

在基於策略的方法中,我們旨在直接最佳化策略,而不使用價值函式。更準確地說,Reinforce是基於策略的方法的一個子類,稱為策略梯度方法。這個子類透過使用梯度上升估計最優策略的權重來直接最佳化策略。

我們看到Reinforce表現良好。然而,由於我們使用蒙特卡羅取樣來估計回報(我們使用整個回合來計算回報),策略梯度估計中存在顯著的方差

請記住,策略梯度估計是回報最陡峭增加的方向。換句話說,它是如何更新我們的策略權重,以便導致良好回報的動作有更高的被採取的機率。蒙特卡羅方差,我們將在本單元中進一步研究它,導致訓練速度變慢,因為我們需要大量的樣本來緩解它

所以今天我們將學習Actor-Critic方法,這是一種結合了基於價值和基於策略方法的混合架構,透過使用以下方式減少方差來幫助穩定訓練:

  • Actor 控制我們的智慧體如何行動(基於策略的方法)
  • Critic 衡量所採取行動的好壞(基於價值的方法)

我們將研究其中一種混合方法,優勢Actor Critic (A2C),並使用Stable-Baselines3在機器人環境中訓練我們的智慧體。我們將訓練

  • 一個機械臂🦾移動到正確的位置。

聽起來很激動人心?讓我們開始吧!

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.