詞彙表

這是一個社群建立的詞彙表。歡迎貢獻！

表格方法（Tabular Method）： 一種問題型別，其中狀態和動作空間足夠小，可以將價值函式近似地表示為陣列和表格。Q-learning 是表格方法的一個例子，因為它使用一個表格來表示不同狀態-動作對的價值。
深度 Q-Learning（Deep Q-Learning）： 一種方法，透過訓練一個神經網路來近似給定狀態下每個可能動作的Q 值。當觀測空間太大而無法應用表格 Q-Learning 方法時，可用於解決此類問題。
時間限制（Temporal Limitation） 是當環境狀態由幀表示時出現的一個難題。單個幀本身不提供時間資訊。為了獲得時間資訊，我們需要將多個幀堆疊在一起。
深度 Q-Learning 的階段
- 取樣（Sampling）： 執行動作，並將觀察到的經驗元組儲存在回放記憶中。
- 訓練（Training）： 隨機選擇一批元組，神經網路使用梯度下降更新其權重。
穩定深度 Q-Learning 的解決方案
- 經驗回放（Experience Replay）： 建立一個回放記憶來儲存經驗樣本，這些樣本可以在訓練期間重複使用。這使得智慧體能夠從相同的經驗中多次學習。此外，它有助於智慧體避免在獲得新經驗時遺忘之前的經驗。
- 從回放緩衝區進行隨機取樣（Random sampling） 可以消除觀測序列中的相關性，並防止動作值發生震盪或災難性發散。
- 固定 Q-目標（Fixed Q-Target）： 為了計算Q-目標，我們需要使用貝爾曼方程估算下一個狀態的折現最優Q 值。問題在於，計算Q-目標和Q 值使用的是相同的網路權重。這意味著每次我們修改Q 值時，Q-目標也會隨之移動。為了避免這個問題，可以使用一個具有固定引數的獨立網路來估算時序差分目標。目標網路透過在經過一定數量的 C 步後從我們的深度 Q 網路複製引數來更新。
- 雙 DQN（Double DQN）： 處理 Q 值 過高估計的方法。該解決方案使用兩個網路來解耦動作選擇與目標值生成。
  - DQN 網路（DQN Network） 用於選擇下一個狀態的最佳動作（具有最高Q 值的動作）。
  - 目標網路（Target Network） 用於計算在下一個狀態採取該動作的目標Q 值。這種方法減少了Q 值的過高估計，有助於更快地訓練並使學習更穩定。

如果您想改進本課程，可以提交拉取請求。

本詞彙表的製作得益於

Dario Paez

< > 在 GitHub 上更新

深度強化學習課程

詞彙表