深度強化學習課程文件

測驗

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

測驗

學習和避免能力錯覺的最佳方法是**自我測試**。這將幫助你找出**需要鞏固知識的地方**。

Q1: 以下哪種對偏差-方差權衡的解釋在強化學習領域中最準確?

Q2: 當談論強化學習中具有偏差和/或方差的模型時,以下哪些陳述是正確的?

Q3: 以下哪些關於蒙特卡洛方法的陳述是正確的?

Q4: 用你自己的話,你將如何描述 Actor-Critic 方法 (A2C)?

解決方案

Actor-Critic 背後的思想是學習兩個函式近似:

  1. 一個`策略`,控制智慧體的行為 (π)
  2. 一個`價值`函式,透過衡量所採取行動的好壞來輔助策略更新 (q)
Actor-Critic, step 2

Q5: 以下哪些關於 Actor-Critic 方法的陳述是正確的?

Q6: A2C 方法中的“優勢”是什麼?

解決方案

我們可以使用`優勢`函式,而不是直接使用評論員的行動-價值函式。`優勢`函式背後的思想是,我們計算某個行動與該狀態下其他可能行動的相對優勢,並對其進行平均。

換句話說:在某個狀態下采取該行動與該狀態的平均價值相比,有多大的優勢。

Advantage in A2C

恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,請花時間再讀一遍本章,以鞏固(😏)你的知識。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.