設計多智慧體系統

在本節中，你將觀看 Brian Douglas 製作的這段關於多智慧體的精彩介紹。

在這段影片中，Brian 談到了如何設計多智慧體系統。他特別舉了一個吸塵器多智慧體系統，並提出了問題：它們如何相互協作？

我們有兩種解決方案來設計這種多智慧體強化學習系統 (MARL)。

去中心化系統

在去中心化學習中，每個智慧體獨立於其他智慧體進行訓練。在給定的例子中，每個吸塵器都學習儘可能多地清理地方，而不關心其他吸塵器（智慧體）正在做什麼。

好處是，由於智慧體之間不共享資訊，這些吸塵器可以像我們訓練單個智慧體一樣進行設計和訓練。

這裡的想法是，我們的訓練智慧體將把其他智慧體視為環境動態的一部分。而不是作為智慧體。

然而，這種技術的主要缺點是它會使環境變得非平穩，因為隨著其他智慧體也在環境中互動，底層的馬爾可夫決策過程會隨時間變化。這對於許多強化學習演算法來說是一個問題，因為它們無法在非平穩環境中達到全域性最優。

在這種架構中，我們有一個高階程序來收集智慧體的經驗：經驗緩衝區。我們將使用這些經驗來學習一個共同的策略。

例如，在吸塵器示例中，觀察結果將是：

我們利用這些集體經驗來訓練一個策略，該策略將以最有利的方式移動所有三個機器人。因此，每個機器人都從它們的共同經驗中學習。我們現在有一個平穩的環境，因為所有智慧體都被視為一個更大的實體，並且它們知道其他智慧體策略的變化（因為它們與它們的策略相同）。

總結一下

在去中心化方法中，我們獨立地對待所有智慧體，而不考慮其他智慧體的存在。
- 在這種情況下，所有智慧體都將其他智慧體視為環境的一部分。
- 這是一個非平穩環境條件，因此無法保證收斂。
在中心化方法中
- 從所有智慧體中學習一個單一策略。
- 將環境的當前狀態作為輸入，策略輸出聯合動作。
- 獎勵是全域性的。