深度強化學習課程文件
詞彙表
並獲得增強的文件體驗
開始使用
詞彙表
這是一個社群建立的詞彙表。歡迎貢獻!
表格方法(Tabular Method): 一種問題型別,其中狀態和動作空間足夠小,可以將價值函式近似地表示為陣列和表格。Q-learning 是表格方法的一個例子,因為它使用一個表格來表示不同狀態-動作對的價值。
深度 Q-Learning(Deep Q-Learning): 一種方法,透過訓練一個神經網路來近似給定狀態下每個可能動作的Q 值。當觀測空間太大而無法應用表格 Q-Learning 方法時,可用於解決此類問題。
時間限制(Temporal Limitation) 是當環境狀態由幀表示時出現的一個難題。單個幀本身不提供時間資訊。為了獲得時間資訊,我們需要將多個幀堆疊在一起。
深度 Q-Learning 的階段
- 取樣(Sampling): 執行動作,並將觀察到的經驗元組儲存在回放記憶中。
- 訓練(Training): 隨機選擇一批元組,神經網路使用梯度下降更新其權重。
穩定深度 Q-Learning 的解決方案
經驗回放(Experience Replay): 建立一個回放記憶來儲存經驗樣本,這些樣本可以在訓練期間重複使用。這使得智慧體能夠從相同的經驗中多次學習。此外,它有助於智慧體避免在獲得新經驗時遺忘之前的經驗。
從回放緩衝區進行隨機取樣(Random sampling) 可以消除觀測序列中的相關性,並防止動作值發生震盪或災難性發散。
固定 Q-目標(Fixed Q-Target): 為了計算Q-目標,我們需要使用貝爾曼方程估算下一個狀態的折現最優Q 值。問題在於,計算Q-目標和Q 值使用的是相同的網路權重。這意味著每次我們修改Q 值時,Q-目標也會隨之移動。為了避免這個問題,可以使用一個具有固定引數的獨立網路來估算時序差分目標。目標網路透過在經過一定數量的 C 步後從我們的深度 Q 網路複製引數來更新。
雙 DQN(Double DQN): 處理 Q 值 過高估計的方法。該解決方案使用兩個網路來解耦動作選擇與目標值生成。
- DQN 網路(DQN Network) 用於選擇下一個狀態的最佳動作(具有最高Q 值的動作)。
- 目標網路(Target Network) 用於計算在下一個狀態採取該動作的目標Q 值。這種方法減少了Q 值的過高估計,有助於更快地訓練並使學習更穩定。
如果您想改進本課程,可以提交拉取請求。
本詞彙表的製作得益於
< > 在 GitHub 上更新