深度強化學習課程文件

詞彙表

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

引言什麼是強化學習？簡短回顧兩種基於價值的方法貝爾曼方程，簡化我們的價值估計蒙特卡洛 vs 時序差分學習中期回顧中期測驗 Q-學習介紹 Q-學習示例 Q-學習回顧詞彙表實戰 Q-學習測驗結論附加閱讀

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

詞彙表

這是一個由社群建立的詞彙表。歡迎貢獻！

尋找最優策略的策略

基於策略的方法。策略通常使用神經網路進行訓練，以根據給定狀態選擇要執行的動作。在這種情況下，神經網路輸出代理應採取的動作，而不是使用價值函式。根據從環境中收到的經驗，神經網路將被重新調整並提供更好的動作。
基於價值的方法。在這種情況下，訓練價值函式以輸出狀態或狀態-動作對的價值，這將代表我們的策略。然而，此價值不定義代理應採取的動作。相反，我們需要根據價值函式的輸出來指定代理的行為。例如，我們可以決定採用一種策略，即始終採取導致最大獎勵的動作（貪婪策略）。總之，該策略是貪婪策略（或使用者採取的任何決策），它使用價值函式的值來決定要採取的動作。

在基於價值的方法中，我們可以找到兩種主要策略

狀態-價值函式。對於每個狀態，狀態-價值函式是如果代理從該狀態開始並遵循策略直到結束的預期回報。
動作-價值函式。與狀態-價值函式相反，動作-價值函式計算每個狀態和動作對的預期回報，如果代理從該狀態開始，執行該動作，然後永遠遵循該策略。

ε-貪婪策略：

強化學習中常用的一種策略，用於平衡探索和利用。
以 1-ε 的機率選擇預期獎勵最高的動作。
以 ε 的機率選擇一個隨機動作。
ε 通常會隨時間推移而減小，以將重點轉向利用。

貪婪策略：

總是選擇根據當前環境知識預期會帶來最高獎勵的動作。（只利用）
始終選擇預期獎勵最高的動作。
不包括任何探索。
在存在不確定性或未知最優動作的環境中可能不利。

離策略演算法 vs 在策略演算法

離策略演算法：在訓練時和推理時使用不同的策略。
在策略演算法：在訓練和推理期間使用相同的策略。

蒙特卡洛和時序差分學習策略

蒙特卡洛 (MC)：在回合結束時學習。使用蒙特卡洛，我們等到回合結束，然後從完整的回合中更新價值函式（或策略函式）。
時序差分 (TD)：在每個步驟學習。使用時序差分學習，我們在每個步驟更新價值函式（或策略函式），而無需完整的回合。

如果您想改進本課程，可以提交拉取請求。

本詞彙表的製作得益於

< > 在 GitHub 上更新

←Q-學習回顧實戰→

© . This site is unofficial and not affiliated with Hugging Face, Inc.