深度強化學習課程文件

強化學習框架

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

強化學習框架

強化學習過程

The RL process
強化學習過程:狀態、動作、獎勵和下一個狀態的迴圈
來源:《強化學習:導論》,Richard Sutton 和 Andrew G. Barto

為了理解強化學習過程,讓我們想象一個智慧體學習翫一個平臺遊戲

The RL process
  • 我們的智慧體從環境接收到狀態S0S_0 — 我們接收到遊戲的第一個畫面(環境)。
  • 基於這個狀態S0S_0智慧體採取行動A0A_0 — 我們的智慧體將向右移動。
  • 環境進入一個狀態S1S_1 — 新的畫面。
  • 環境給智慧體一些獎勵R1R_1 — 我們沒有死(正獎勵 +1)

這個強化學習迴圈輸出一系列的狀態、行動、獎勵和下一個狀態。

State, Action, Reward, Next State

智慧體的目標是最大化其累積獎勵,稱為預期回報。

獎勵假設:強化學習的核心思想

⇒ 為什麼智慧體的目標是最大化預期回報?

因為強化學習基於獎勵假設,即所有目標都可以描述為預期回報(預期累積獎勵)的最大化

這就是為什麼在強化學習中,為了擁有最佳行為,我們旨在學習採取能夠最大化預期累積獎勵的行動。

馬爾可夫性質

在論文中,您會看到強化學習過程被稱為馬爾可夫決策過程(MDP)。

我們將在後續單元中再次討論馬爾可夫性質。但如果您今天需要記住它的一些東西,那就是:馬爾可夫性質意味著我們的智慧體只需要當前狀態來決定採取什麼行動,而不需要所有過去狀態和行動的歷史

觀測/狀態空間

觀測/狀態是我們的智慧體從環境中獲取的資訊。在影片遊戲的情況下,它可以是一個畫面(截圖)。在交易智慧體的情況下,它可以是某種股票的價值等。

然而,觀察和狀態之間需要區分開來:

  • 狀態 s:是對世界狀態的完整描述(沒有隱藏資訊)。在完全可觀察的環境中。
Chess
在國際象棋遊戲中,我們從環境接收到一個狀態,因為我們可以訪問整個棋盤資訊。

在國際象棋遊戲中,我們可以訪問整個棋盤資訊,因此我們從環境接收到一個狀態。換句話說,環境是完全可觀察的。

  • 觀測 o:是對狀態的部分描述。在部分可觀察的環境中。
Mario
在《超級馬里奧兄弟》中,我們只能看到玩家附近的關卡部分,所以我們接收到一個觀測。

在《超級馬里奧兄弟》中,我們只能看到玩家附近的關卡部分,所以我們接收到一個觀測。

在《超級馬里奧兄弟》中,我們處於一個部分可觀察的環境中。我們接收到一個觀測,因為我們只能看到關卡的一部分。

在本課程中,我們使用術語“狀態”來表示狀態和觀測,但在實現中我們會加以區分。

總結一下

Obs space recap

行動空間

行動空間是環境中所有可能的行動的集合。

行動可以來自離散空間連續空間

  • 離散空間:可能的行動數量是有限的
Mario
在《超級馬里奧兄弟》中,我們只有 4 種可能的行動:左、右、上(跳躍)和下(蹲伏)。

同樣,在《超級馬里奧兄弟》中,我們有一個有限的行動集,因為我們只有 4 個方向。

  • 連續空間:可能的行動數量是無限的
Self Driving Car
自動駕駛汽車智慧體有無限種可能的行動,因為它可以左轉 20°、21.1°、21.2°,按喇叭,右轉 20°……

總結一下

Action space recap

考慮這些資訊至關重要,因為它在未來選擇強化學習演算法時具有重要意義。

獎勵和折扣

獎勵在強化學習中至關重要,因為它是智慧體的唯一反饋。多虧了它,我們的智慧體才知道所採取的行動是否正確。

每個時間步t的累積獎勵可以寫為:

Rewards
累積獎勵等於序列中所有獎勵的總和。

這相當於

Rewards
累積獎勵 = rt+1 (rt+k+1 = rt+0+1 = rt+1) + rt+2 (rt+k+1 = rt+1+1 = rt+2) + ...

然而,在現實中,我們不能就這樣把它們加起來。較早(遊戲開始時)獲得的獎勵更有可能發生,因為它們比長期未來的獎勵更可預測。

假設你的智慧體是一隻小老鼠,它每走一步可以移動一格,你的對手是貓(它也可以移動)。老鼠的目標是在被貓吃掉之前吃掉最大量的乳酪。

Rewards

正如我們在圖中所看到的,吃掉附近的乳酪比吃掉貓附近的乳酪更有可能(我們離貓越近,就越危險)。

因此,貓附近的獎勵,即使它更大(更多的乳酪),也會被更多地折扣,因為我們不確定是否能吃到它。

為了折扣獎勵,我們這樣做:

  1. 我們定義一個折扣率,稱為 gamma。它必須介於 0 和 1 之間。大多數情況下介於0.95 和 0.99之間。
  • gamma 越大,折扣越小。這意味著我們的智慧體更關心長期獎勵。
  • 另一方面,gamma 越小,折扣越大。這意味著我們的智慧體更關心短期獎勵(最近的乳酪)。

2. 然後,每個獎勵將以時間步數的 gamma 指數進行折扣。隨著時間步的增加,貓離我們越來越近,因此未來獎勵發生的可能性越來越小。

我們折扣後的預期累積獎勵是

獎勵 < > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.