蒙特卡洛與時序差分學習

在深入瞭解 Q-學習之前，我們需要討論的最後一件事是兩種學習策略。

請記住，強化學習智慧體**透過與環境互動來學習。**其理念是，**根據經驗和收到的獎勵，智慧體將更新其價值函式或策略。**

蒙特卡洛和時序差分學習是兩種不同的**訓練價值函式或策略函式的策略。**它們都**利用經驗來解決強化學習問題。**

一方面，蒙特卡洛**在學習之前使用整個回合的經驗。**另一方面，時序差分**只使用一個步驟（ $S_t, A_t, R_{t+1}, S_{t+1}$ ）來學習。**

我們將**使用基於價值的方法示例**來解釋這兩種方法。

蒙特卡洛：在回合結束時學習

蒙特卡洛等待到回合結束，計算 $G_t$ （回報），並將其用作**更新 $V(S_t)$ 的目標。**

因此，它需要**完整的互動回合才能更新價值函式。**

如果我們舉一個例子：

我們總是**從相同的起點**開始回合。
**智慧體使用策略採取行動。**例如，使用 Epsilon Greedy 策略，這是一種在探索（隨機行動）和利用之間交替的策略。
我們獲得**獎勵和下一個狀態。**
如果貓吃了老鼠，或者老鼠移動了 > 10 步，我們就終止回合。
在回合結束時，**我們有一個狀態、行動、獎勵和下一個狀態元組的列表。**例如 [[狀態瓦片 3 底部，向左，+1，狀態瓦片 2 底部]，[狀態瓦片 2 底部，向左，+0，狀態瓦片 1 底部]…]
**智慧體將對總獎勵 $G_t$ **求和（以檢視其表現如何）。
然後它將**根據公式更新 $V(s_t)$ 。**
然後**用這些新知識開始新遊戲。**

透過執行越來越多的回合，**智慧體將學會玩得越來越好。**

例如，如果我們使用蒙特卡洛訓練狀態價值函式

我們有一個狀態、行動、獎勵、下一個狀態的列表，**我們需要計算回報 $G{t=0}$ **。 $G_t = R_{t+1} + R_{t+2} + R_{t+3} ...$ （為簡單起見，我們不對獎勵進行折扣） $G_0 = R_{1} + R_{2} + R_{3}…$ $G_{0} = 1 + 0 + 0 + 0 + 0 + 0 + 1 + 1 + 0 + 0$ $G_0 = 3$
我們現在可以計算**新的** $V(S_0)$ :
$V(S_0) = V(S_0) + lr * [G_0 — V(S_0)]$ $V(S_0) = 0 + 0.1 * [3 – 0]$ $V(S_0) = 0.3$