深度強化學習課程文件

什麼是強化學習（RL）？簡要回顧

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

引言什麼是強化學習？簡要回顧兩種基於價值的方法貝爾曼方程，簡化我們的價值估計蒙特卡羅 vs 時序差分學習中期回顧中期測驗 Q-學習介紹 Q-學習示例 Q-學習回顧詞彙表實操 Q-學習測驗總結延伸閱讀

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

什麼是強化學習（RL）？簡要回顧

在強化學習中，我們構建一個能夠做出明智決策的智慧體。例如，一個學習翫影片遊戲的智慧體，或者一個透過決定購買哪些股票以及何時出售來最大化其收益的交易智慧體。

RL process

為了做出智慧決策，我們的智慧體將透過試錯與環境互動並接收獎勵（正向或負向）作為獨特的反饋來學習。

其目標是最大化其預期累積獎勵（由於獎勵假說）。

智慧體的決策過程稱為策略 π：給定一個狀態，策略將輸出一個動作或一個動作的機率分佈。也就是說，給定對環境的觀察，策略將提供智慧體應該採取的動作（或每個動作的多個機率）。

Policy

我們的目標是找到一個最優策略 π*，即能帶來最佳預期累積獎勵的策略。

為了找到這個最優策略（從而解決強化學習問題），主要有兩種強化學習方法：

基於策略的方法：直接訓練策略以學習給定狀態下應採取的動作。
基於價值的方法：訓練一個價值函式來學習哪個狀態更有價值，並使用這個價值函式來採取導致該狀態的動作。

Two RL approaches

在本單元中，我們將深入探討基於價值的方法。

< > 在 GitHub 上更新

←引言兩種基於價值的方法→

© . This site is unofficial and not affiliated with Hugging Face, Inc.