深度強化學習課程文件

任務型別

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

引言什麼是強化學習？強化學習框架任務型別探索/利用權衡解決強化學習問題的兩種主要方法深度強化學習中的“深度” 總結詞彙表實操測驗結論延伸閱讀

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

任務型別

任務是強化學習問題的**一個例項**。我們可以有兩種型別的任務：**情景式**和**持續式**。

情景式任務

在這種情況下，我們有一個起始點和一個終止點**（一個終止狀態）。這構成了一個情節**：一個由狀態、動作、獎勵和新狀態組成的列表。

例如，想想《超級馬里奧兄弟》：一個情節從一個新的馬里奧關卡開始，當**你被殺死或到達關卡末尾時結束**。

Mario — 新情節的開始。

持續式任務

這些任務**永遠持續**（**沒有終止狀態**）。在這種情況下，代理必須**學習如何選擇最佳動作並同時與環境互動**。

例如，一個進行自動化股票交易的代理。對於這個任務，沒有起始點和終止狀態。**代理會一直執行，直到我們決定停止它。**

Stock Market

總結一下

Tasks recap

< > 在 GitHub 上更新

←強化學習框架探索/利用權衡→

© . This site is unofficial and not affiliated with Hugging Face, Inc.