深度強化學習課程文件

詞彙表

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

詞彙表

這是一個社群建立的詞彙表。歡迎貢獻!

  • 表格方法(Tabular Method): 一種問題型別,其中狀態和動作空間足夠小,可以將價值函式近似地表示為陣列和表格。Q-learning 是表格方法的一個例子,因為它使用一個表格來表示不同狀態-動作對的價值。

  • 深度 Q-Learning(Deep Q-Learning): 一種方法,透過訓練一個神經網路來近似給定狀態下每個可能動作的Q 值。當觀測空間太大而無法應用表格 Q-Learning 方法時,可用於解決此類問題。

  • 時間限制(Temporal Limitation) 是當環境狀態由幀表示時出現的一個難題。單個幀本身不提供時間資訊。為了獲得時間資訊,我們需要將多個幀堆疊在一起。

  • 深度 Q-Learning 的階段

    • 取樣(Sampling): 執行動作,並將觀察到的經驗元組儲存在回放記憶中。
    • 訓練(Training): 隨機選擇一批元組,神經網路使用梯度下降更新其權重。
  • 穩定深度 Q-Learning 的解決方案

    • 經驗回放(Experience Replay): 建立一個回放記憶來儲存經驗樣本,這些樣本可以在訓練期間重複使用。這使得智慧體能夠從相同的經驗中多次學習。此外,它有助於智慧體避免在獲得新經驗時遺忘之前的經驗。

    • 從回放緩衝區進行隨機取樣(Random sampling) 可以消除觀測序列中的相關性,並防止動作值發生震盪或災難性發散。

    • 固定 Q-目標(Fixed Q-Target): 為了計算Q-目標,我們需要使用貝爾曼方程估算下一個狀態的折現最優Q 值。問題在於,計算Q-目標Q 值使用的是相同的網路權重。這意味著每次我們修改Q 值時,Q-目標也會隨之移動。為了避免這個問題,可以使用一個具有固定引數的獨立網路來估算時序差分目標。目標網路透過在經過一定數量的 C 步後從我們的深度 Q 網路複製引數來更新。

    • 雙 DQN(Double DQN): 處理 Q 值 過高估計的方法。該解決方案使用兩個網路來解耦動作選擇與目標值生成

      • DQN 網路(DQN Network) 用於選擇下一個狀態的最佳動作(具有最高Q 值的動作)。
      • 目標網路(Target Network) 用於計算在下一個狀態採取該動作的目標Q 值。這種方法減少了Q 值的過高估計,有助於更快地訓練並使學習更穩定。

如果您想改進本課程,可以提交拉取請求。

本詞彙表的製作得益於

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.