解決強化學習問題的兩種主要方法

現在我們瞭解了強化學習框架，那麼如何解決強化學習問題呢？

換句話說，我們如何構建一個強化學習智慧體，使其能夠**選擇能夠最大化預期累積獎勵的動作？**

策略 π：智慧體的大腦

策略 π 是我們智慧體的大腦，它是一個函式，告訴我們在給定狀態下應該採取什麼行動。因此，它定義了智慧體在給定時間點的行為。

這個策略**是我們想要學習的函式**，我們的目標是找到最優策略 π*，即當智慧體按照該策略行動時，**能使預期回報最大化**的策略。我們透過**訓練**來找到這個 π*。

有兩種方法可以訓練我們的智慧體來找到這個最優策略 π*

在基於策略的方法中，我們**直接學習一個策略函式。**

此函式將定義從每個狀態到最佳對應動作的對映。或者，它可以定義**在該狀態下可能動作集合的機率分佈。**

我們有兩種型別的策略

總結一下

在基於價值的方法中，我們**學習一個價值函式**，而不是學習一個策略函式，該函式將狀態對映到**處於該狀態**的預期價值。

狀態的價值是智慧體**從該狀態開始，然後按照我們的策略行動**所能獲得的**預期折扣回報。**

“按照我們的策略行動”僅僅意味著我們的策略是**“走向價值最高的狀態”**。

這裡我們看到，我們的價值函式**為每個可能的狀態定義了價值。**

感謝我們的價值函式，在每一步中，我們的策略都將選擇價值函式定義的具有最大值的狀態：-7，然後是-6，然後是-5（依此類推），以達到目標。

總結一下