深度強化學習課程文件

測驗

深度強化學習課程

第 0 單元：課程歡迎辭

單元1. 深度強化學習導論

獎勵單元1. Huggy深度強化學習導論

直播1. 課程如何運作，問答環節，以及與Huggy玩耍

單元2. Q-Learning導論

單元3. 雅達利遊戲深度Q-Learning

獎勵單元2. 使用Optuna進行自動超引數調優

單元4. PyTorch策略梯度

簡介什麼是基於策略的方法？策略梯度方法的優缺點深入探索策略梯度（可選）策略梯度定理詞彙表實戰測驗結論延伸閱讀

單元5. Unity ML-Agents導論

單元6. 機器人環境Actor-Critic方法

單元7. 多智慧體和AI對AI導論

單元8. 第1部分近端策略最佳化 (PPO)

單元8. 第2部分使用Doom的近端策略最佳化 (PPO)

獎勵單元3. 強化學習高階主題

獎勵單元5. 使用Godot RL Agents進行模仿學習

結業證書和祝賀

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

測驗

學習和避免能力錯覺的最佳方法是測試自己。這將幫助你找到需要鞏固知識的地方。

Q1: 策略梯度相對於基於值的方法有哪些優勢？（多選）

Q2: 什麼是策略梯度定理？

解決方案

策略梯度定理是一個公式，它能幫助我們將目標函式重構為一個可微函式，且不涉及狀態分佈的微分。

Policy Gradient

Q3: 基於策略的方法和策略梯度方法有什麼區別？（多選）

Q4: 為什麼我們使用梯度上升而不是梯度下降來最佳化 J(θ)？

恭喜你完成了這個測驗🥳，如果你漏掉了一些內容，請花時間再讀一遍本章，以鞏固（😏）你的知識。

< > 在 GitHub 上更新

←實戰結論→

© . This site is unofficial and not affiliated with Hugging Face, Inc.