深度強化學習課程文件
設計多智慧體系統
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
設計多智慧體系統
在本節中,你將觀看 Brian Douglas 製作的這段關於多智慧體的精彩介紹。
在這段影片中,Brian 談到了如何設計多智慧體系統。他特別舉了一個吸塵器多智慧體系統,並提出了問題:它們如何相互協作?
我們有兩種解決方案來設計這種多智慧體強化學習系統 (MARL)。
去中心化系統
在去中心化學習中,每個智慧體獨立於其他智慧體進行訓練。在給定的例子中,每個吸塵器都學習儘可能多地清理地方,而不關心其他吸塵器(智慧體)正在做什麼。
好處是,由於智慧體之間不共享資訊,這些吸塵器可以像我們訓練單個智慧體一樣進行設計和訓練。
這裡的想法是,我們的訓練智慧體將把其他智慧體視為環境動態的一部分。而不是作為智慧體。
然而,這種技術的主要缺點是它會使環境變得非平穩,因為隨著其他智慧體也在環境中互動,底層的馬爾可夫決策過程會隨時間變化。這對於許多強化學習演算法來說是一個問題,因為它們無法在非平穩環境中達到全域性最優。
中心化方法
在這種架構中,我們有一個高階程序來收集智慧體的經驗:經驗緩衝區。我們將使用這些經驗來學習一個共同的策略。
例如,在吸塵器示例中,觀察結果將是:
- 吸塵器的覆蓋圖。
- 所有吸塵器的位置。
我們利用這些集體經驗來訓練一個策略,該策略將以最有利的方式移動所有三個機器人。因此,每個機器人都從它們的共同經驗中學習。我們現在有一個平穩的環境,因為所有智慧體都被視為一個更大的實體,並且它們知道其他智慧體策略的變化(因為它們與它們的策略相同)。
總結一下
在去中心化方法中,我們獨立地對待所有智慧體,而不考慮其他智慧體的存在。
- 在這種情況下,所有智慧體都將其他智慧體視為環境的一部分。
- 這是一個非平穩環境條件,因此無法保證收斂。
在中心化方法中
- 從所有智慧體中學習一個單一策略。
- 將環境的當前狀態作為輸入,策略輸出聯合動作。
- 獎勵是全域性的。