深度強化學習課程文件
測驗
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
測驗
學習和避免能力錯覺的最佳方法是測試自己。這將幫助你找到需要鞏固知識的地方。
Q1: 策略梯度相對於基於值的方法有哪些優勢?(多選)
Q2: 什麼是策略梯度定理?
解決方案
策略梯度定理是一個公式,它能幫助我們將目標函式重構為一個可微函式,且不涉及狀態分佈的微分。

Q3: 基於策略的方法和策略梯度方法有什麼區別?(多選)
Q4: 為什麼我們使用梯度上升而不是梯度下降來最佳化 J(θ)?
恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,請花時間再讀一遍本章,以鞏固(😏)你的知識。
< > 在 GitHub 上更新