深度強化學習課程文件
測驗
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
測驗
學習和避免能力錯覺的最佳方法是**自我測試**。這將幫助你找出**需要鞏固知識的地方**。
Q1: 以下哪種對偏差-方差權衡的解釋在強化學習領域中最準確?
Q2: 當談論強化學習中具有偏差和/或方差的模型時,以下哪些陳述是正確的?
Q3: 以下哪些關於蒙特卡洛方法的陳述是正確的?
Q4: 用你自己的話,你將如何描述 Actor-Critic 方法 (A2C)?
解決方案
Actor-Critic 背後的思想是學習兩個函式近似:
- 一個`策略`,控制智慧體的行為 (π)
- 一個`價值`函式,透過衡量所採取行動的好壞來輔助策略更新 (q)

Q5: 以下哪些關於 Actor-Critic 方法的陳述是正確的?
Q6: A2C 方法中的“優勢”是什麼?
解決方案
我們可以使用`優勢`函式,而不是直接使用評論員的行動-價值函式。`優勢`函式背後的思想是,我們計算某個行動與該狀態下其他可能行動的相對優勢,並對其進行平均。
換句話說:在某個狀態下采取該行動與該狀態的平均價值相比,有多大的優勢。

恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,請花時間再讀一遍本章,以鞏固(😏)你的知識。
< > 在 GitHub 上更新