深度強化學習課程文件

詞彙表

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

詞彙表

這是一個由社群建立的詞彙表。歡迎貢獻!

尋找最優策略的策略

  • 基於策略的方法。策略通常使用神經網路進行訓練,以根據給定狀態選擇要執行的動作。在這種情況下,神經網路輸出代理應採取的動作,而不是使用價值函式。根據從環境中收到的經驗,神經網路將被重新調整並提供更好的動作。
  • 基於價值的方法。在這種情況下,訓練價值函式以輸出狀態或狀態-動作對的價值,這將代表我們的策略。然而,此價值不定義代理應採取的動作。相反,我們需要根據價值函式的輸出來指定代理的行為。例如,我們可以決定採用一種策略,即始終採取導致最大獎勵的動作(貪婪策略)。總之,該策略是貪婪策略(或使用者採取的任何決策),它使用價值函式的值來決定要採取的動作。

在基於價值的方法中,我們可以找到兩種主要策略

  • 狀態-價值函式。對於每個狀態,狀態-價值函式是如果代理從該狀態開始並遵循策略直到結束的預期回報。
  • 動作-價值函式。與狀態-價值函式相反,動作-價值函式計算每個狀態和動作對的預期回報,如果代理從該狀態開始,執行該動作,然後永遠遵循該策略。

ε-貪婪策略:

  • 強化學習中常用的一種策略,用於平衡探索和利用。
  • 以 1-ε 的機率選擇預期獎勵最高的動作。
  • 以 ε 的機率選擇一個隨機動作。
  • ε 通常會隨時間推移而減小,以將重點轉向利用。

貪婪策略:

  • 總是選擇根據當前環境知識預期會帶來最高獎勵的動作。(只利用)
  • 始終選擇預期獎勵最高的動作。
  • 不包括任何探索。
  • 在存在不確定性或未知最優動作的環境中可能不利。

離策略演算法 vs 在策略演算法

  • 離策略演算法:在訓練時和推理時使用不同的策略。
  • 在策略演算法:在訓練和推理期間使用相同的策略。

蒙特卡洛和時序差分學習策略

  • 蒙特卡洛 (MC):在回合結束時學習。使用蒙特卡洛,我們等到回合結束,然後從完整的回合中更新價值函式(或策略函式)。

  • 時序差分 (TD):在每個步驟學習。使用時序差分學習,我們在每個步驟更新價值函式(或策略函式),而無需完整的回合。

如果您想改進本課程,可以提交拉取請求。

本詞彙表的製作得益於

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.