深度強化學習課程文件

測驗

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

測驗

學習和避免能力錯覺的最佳方法是測試自己。這將幫助你找到需要鞏固知識的地方

Q1: 策略梯度相對於基於值的方法有哪些優勢?(多選)

Q2: 什麼是策略梯度定理?

解決方案

策略梯度定理是一個公式,它能幫助我們將目標函式重構為一個可微函式,且不涉及狀態分佈的微分。

Policy Gradient

Q3: 基於策略的方法和策略梯度方法有什麼區別?(多選)

Q4: 為什麼我們使用梯度上升而不是梯度下降來最佳化 J(θ)?

恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,請花時間再讀一遍本章,以鞏固(😏)你的知識。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.