深度強化學習課程文件

解決強化學習問題的兩種主要方法

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

解決強化學習問題的兩種主要方法

現在我們瞭解了強化學習框架,那麼如何解決強化學習問題呢?

換句話說,我們如何構建一個強化學習智慧體,使其能夠**選擇能夠最大化預期累積獎勵的動作?**

策略 π:智慧體的大腦

策略 π 是我們智慧體的大腦,它是一個函式,告訴我們在給定狀態下應該採取什麼行動。因此,它定義了智慧體在給定時間點的行為。

Policy
將策略視為我們智慧體的大腦,它是一個函式,將告訴我們在給定狀態下應該採取的行動。

這個策略**是我們想要學習的函式**,我們的目標是找到最優策略 π*,即當智慧體按照該策略行動時,**能使預期回報最大化**的策略。我們透過**訓練**來找到這個 π*。

有兩種方法可以訓練我們的智慧體來找到這個最優策略 π*

  • **直接地**,透過教導智慧體學習在當前狀態下應該**採取什麼行動**:**基於策略的方法。**
  • **間接地**,**教導智慧體學習哪個狀態更有價值**,然後採取**能夠導向更有價值狀態**的行動:基於價值的方法。

基於策略的方法

在基於策略的方法中,我們**直接學習一個策略函式。**

此函式將定義從每個狀態到最佳對應動作的對映。或者,它可以定義**在該狀態下可能動作集合的機率分佈。**

Policy
正如我們在這裡看到的,策略(確定性)**直接指示每一步要採取的動作。**

我們有兩種型別的策略

  • 確定性:在給定狀態下,策略**總是返回相同的動作。**
Policy
動作 = 策略(狀態)
Policy
  • 隨機性:輸出**動作的機率分佈。**
Policy
策略(動作 | 狀態)= 在給定當前狀態下,動作集合的機率分佈
Policy Based
給定初始狀態,我們的隨機策略將輸出在該狀態下可能動作的機率分佈。

總結一下

Pbm recap Pbm recap

基於價值的方法

在基於價值的方法中,我們**學習一個價值函式**,而不是學習一個策略函式,該函式將狀態對映到**處於該狀態**的預期價值。

狀態的價值是智慧體**從該狀態開始,然後按照我們的策略行動**所能獲得的**預期折扣回報。**

“按照我們的策略行動”僅僅意味著我們的策略是**“走向價值最高的狀態”**。

Value based RL

這裡我們看到,我們的價值函式**為每個可能的狀態定義了價值。**

Value based RL
感謝我們的價值函式,在每一步中,我們的策略都將選擇價值函式定義的具有最大值的狀態:-7,然後是-6,然後是-5(依此類推),以達到目標。

感謝我們的價值函式,在每一步中,我們的策略都將選擇價值函式定義的具有最大值的狀態:-7,然後是-6,然後是-5(依此類推),以達到目標。

總結一下

Vbm recap Vbm recap < > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.