深度強化學習課程文件

Q-Learning 回顧

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

引言什麼是強化學習？簡要回顧兩種基於價值的方法貝爾曼方程，簡化我們的價值估計蒙特卡羅 vs 時序差分學習中期回顧中期測驗 Q-Learning 簡介 Q-Learning 示例 Q-Learning 回顧詞彙表動手實踐 Q-Learning 測驗總結補充閱讀

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Q-Learning 回顧

Q-Learning 是一種強化學習演算法，它透過訓練

一個 Q-函式，一個動作價值函式，該函式在內部記憶體中透過一個 Q-表 編碼，包含所有狀態-動作對的值。
給定一個狀態和動作，我們的 Q-函式將會在其 Q-表中搜索相應的值。

Q function

當訓練完成後，我們擁有一個最優的 Q-函式，或者等價地說，一個最優的 Q-表。
如果我們擁有一個最優的 Q-函式，我們就擁有一個最優策略，因為我們知道每個狀態下要採取的最佳動作。

Link value policy

但是，在開始時，我們的 Q-表是無用的，因為它為每個狀態-動作對提供了任意值（大多數情況下，我們將 Q-表初始化為 0）。但是，隨著我們探索環境並更新 Q-表，它將提供越來越好的近似。

這是 Q-Learning 的虛擬碼：

Q-Learning

< > 在 GitHub 上更新

←Q-Learning 示例詞彙表→

© . This site is unofficial and not affiliated with Hugging Face, Inc.