深度強化學習課程文件

設計多智慧體系統

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

設計多智慧體系統

在本節中,你將觀看 Brian Douglas 製作的這段關於多智慧體的精彩介紹。

在這段影片中,Brian 談到了如何設計多智慧體系統。他特別舉了一個吸塵器多智慧體系統,並提出了問題:它們如何相互協作

我們有兩種解決方案來設計這種多智慧體強化學習系統 (MARL)。

去中心化系統

Decentralized
來源:多智慧體強化學習簡介

在去中心化學習中,每個智慧體獨立於其他智慧體進行訓練。在給定的例子中,每個吸塵器都學習儘可能多地清理地方,而不關心其他吸塵器(智慧體)正在做什麼

好處是,由於智慧體之間不共享資訊,這些吸塵器可以像我們訓練單個智慧體一樣進行設計和訓練

這裡的想法是,我們的訓練智慧體將把其他智慧體視為環境動態的一部分。而不是作為智慧體。

然而,這種技術的主要缺點是它會使環境變得非平穩,因為隨著其他智慧體也在環境中互動,底層的馬爾可夫決策過程會隨時間變化。這對於許多強化學習演算法來說是一個問題,因為它們無法在非平穩環境中達到全域性最優

中心化方法

Centralized
來源:多智慧體強化學習簡介

在這種架構中,我們有一個高階程序來收集智慧體的經驗:經驗緩衝區。我們將使用這些經驗來學習一個共同的策略

例如,在吸塵器示例中,觀察結果將是:

  • 吸塵器的覆蓋圖。
  • 所有吸塵器的位置。

我們利用這些集體經驗來訓練一個策略,該策略將以最有利的方式移動所有三個機器人。因此,每個機器人都從它們的共同經驗中學習。我們現在有一個平穩的環境,因為所有智慧體都被視為一個更大的實體,並且它們知道其他智慧體策略的變化(因為它們與它們的策略相同)。

總結一下

  • 去中心化方法中,我們獨立地對待所有智慧體,而不考慮其他智慧體的存在。

    • 在這種情況下,所有智慧體都將其他智慧體視為環境的一部分
    • 這是一個非平穩環境條件,因此無法保證收斂。
  • 中心化方法

    • 從所有智慧體中學習一個單一策略
    • 將環境的當前狀態作為輸入,策略輸出聯合動作。
    • 獎勵是全域性的。
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.