深度強化學習課程文件
解決強化學習問題的兩種主要方法
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
解決強化學習問題的兩種主要方法
現在我們瞭解了強化學習框架,那麼如何解決強化學習問題呢?
換句話說,我們如何構建一個強化學習智慧體,使其能夠**選擇能夠最大化預期累積獎勵的動作?**
策略 π:智慧體的大腦
策略 π 是我們智慧體的大腦,它是一個函式,告訴我們在給定狀態下應該採取什麼行動。因此,它定義了智慧體在給定時間點的行為。
這個策略**是我們想要學習的函式**,我們的目標是找到最優策略 π*,即當智慧體按照該策略行動時,**能使預期回報最大化**的策略。我們透過**訓練**來找到這個 π*。
有兩種方法可以訓練我們的智慧體來找到這個最優策略 π*
- **直接地**,透過教導智慧體學習在當前狀態下應該**採取什麼行動**:**基於策略的方法。**
- **間接地**,**教導智慧體學習哪個狀態更有價值**,然後採取**能夠導向更有價值狀態**的行動:基於價值的方法。
基於策略的方法
在基於策略的方法中,我們**直接學習一個策略函式。**
此函式將定義從每個狀態到最佳對應動作的對映。或者,它可以定義**在該狀態下可能動作集合的機率分佈。**
我們有兩種型別的策略
- 確定性:在給定狀態下,策略**總是返回相同的動作。**
- 隨機性:輸出**動作的機率分佈。**
總結一下
基於價值的方法
在基於價值的方法中,我們**學習一個價值函式**,而不是學習一個策略函式,該函式將狀態對映到**處於該狀態**的預期價值。
狀態的價值是智慧體**從該狀態開始,然後按照我們的策略行動**所能獲得的**預期折扣回報。**
“按照我們的策略行動”僅僅意味著我們的策略是**“走向價值最高的狀態”**。
這裡我們看到,我們的價值函式**為每個可能的狀態定義了價值。**
感謝我們的價值函式,在每一步中,我們的策略都將選擇價值函式定義的具有最大值的狀態:-7,然後是-6,然後是-5(依此類推),以達到目標。
總結一下
< > 在 GitHub 上更新