深度強化學習課程文件
詞彙表
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
詞彙表
這是一個由社群建立的詞彙表。歡迎貢獻!
尋找最優策略的策略
- 基於策略的方法。策略通常使用神經網路進行訓練,以根據給定狀態選擇要執行的動作。在這種情況下,神經網路輸出代理應採取的動作,而不是使用價值函式。根據從環境中收到的經驗,神經網路將被重新調整並提供更好的動作。
- 基於價值的方法。在這種情況下,訓練價值函式以輸出狀態或狀態-動作對的價值,這將代表我們的策略。然而,此價值不定義代理應採取的動作。相反,我們需要根據價值函式的輸出來指定代理的行為。例如,我們可以決定採用一種策略,即始終採取導致最大獎勵的動作(貪婪策略)。總之,該策略是貪婪策略(或使用者採取的任何決策),它使用價值函式的值來決定要採取的動作。
在基於價值的方法中,我們可以找到兩種主要策略
- 狀態-價值函式。對於每個狀態,狀態-價值函式是如果代理從該狀態開始並遵循策略直到結束的預期回報。
- 動作-價值函式。與狀態-價值函式相反,動作-價值函式計算每個狀態和動作對的預期回報,如果代理從該狀態開始,執行該動作,然後永遠遵循該策略。
ε-貪婪策略:
- 強化學習中常用的一種策略,用於平衡探索和利用。
- 以 1-ε 的機率選擇預期獎勵最高的動作。
- 以 ε 的機率選擇一個隨機動作。
- ε 通常會隨時間推移而減小,以將重點轉向利用。
貪婪策略:
- 總是選擇根據當前環境知識預期會帶來最高獎勵的動作。(只利用)
- 始終選擇預期獎勵最高的動作。
- 不包括任何探索。
- 在存在不確定性或未知最優動作的環境中可能不利。
離策略演算法 vs 在策略演算法
- 離策略演算法:在訓練時和推理時使用不同的策略。
- 在策略演算法:在訓練和推理期間使用相同的策略。
蒙特卡洛和時序差分學習策略
蒙特卡洛 (MC):在回合結束時學習。使用蒙特卡洛,我們等到回合結束,然後從完整的回合中更新價值函式(或策略函式)。
時序差分 (TD):在每個步驟學習。使用時序差分學習,我們在每個步驟更新價值函式(或策略函式),而無需完整的回合。
如果您想改進本課程,可以提交拉取請求。
本詞彙表的製作得益於
< > 在 GitHub 上更新