深度強化學習課程文件

測驗

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

測驗

學習和避免能力錯覺的最佳方法是**自我測試。**這將幫助你找到**需要鞏固知識的地方**。

Q1: 比較不同型別的多智慧體環境時,選擇更合適的選項

  • 你的智慧體旨在在____環境中最大化共同利益
  • 你的智慧體旨在在____環境中最大化共同利益,同時最小化對手的利益

Q2: 以下關於去中心化學習的陳述中哪些是正確的?

Q3: 以下關於中心化學習的陳述中哪些是正確的?

Q4: 用你自己的話解釋什麼是自我對弈方法

解決方案

自我對弈是一種例項化與你的策略相同的智慧體作為對手的方法,這樣你的智慧體就可以從具有相同訓練水平的智慧體那裡學習。

Q5: 配置自我對弈時,有幾個重要引數。你能根據它們的定義,指出我們正在談論哪個引數嗎?

  • 與當前自我對弈與池中對手對弈的機率
  • 可能面對的對手的訓練水平的多樣性(離散度)
  • 生成新對手之前的訓練步數
  • 對手更換率

Q6: 使用 Elo 等級分的主要動機是什麼?

恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,請花時間再讀一遍本章,以鞏固(😏)你的知識。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.