深度強化學習課程文件
測驗
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
測驗
學習和避免能力錯覺的最佳方法是**自我測試。**這將幫助你找到**需要鞏固知識的地方**。
Q1: 比較不同型別的多智慧體環境時,選擇更合適的選項
- 你的智慧體旨在在____環境中最大化共同利益
- 你的智慧體旨在在____環境中最大化共同利益,同時最小化對手的利益
Q2: 以下關於去中心化學習的陳述中哪些是正確的?
Q3: 以下關於中心化學習的陳述中哪些是正確的?
Q4: 用你自己的話解釋什麼是自我對弈方法
解決方案
自我對弈是一種例項化與你的策略相同的智慧體作為對手的方法,這樣你的智慧體就可以從具有相同訓練水平的智慧體那裡學習。
Q5: 配置自我對弈時,有幾個重要引數。你能根據它們的定義,指出我們正在談論哪個引數嗎?
- 與當前自我對弈與池中對手對弈的機率
- 可能面對的對手的訓練水平的多樣性(離散度)
- 生成新對手之前的訓練步數
- 對手更換率
Q6: 使用 Elo 等級分的主要動機是什麼?
恭喜你完成了這個測驗🥳,如果你漏掉了一些內容,請花時間再讀一遍本章,以鞏固(😏)你的知識。
< > 在 GitHub 上更新