深度強化學習課程文件

多智慧體強化學習(MARL)簡介

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

多智慧體強化學習(MARL)簡介

從單一智慧體到多智慧體

在第一個單元中,我們學習了在單一智慧體系統中訓練智慧體。當我們的智慧體獨自處於其環境中時:它不會與其他智慧體合作或協作

Patchwork
本課程開始以來您訓練過的所有環境的拼湊

當我們進行多智慧體強化學習(MARL)時,我們處於一種擁有多個智慧體的境地,這些智慧體在一個共同的環境中共享並相互作用

例如,您可以想象一個倉庫,其中多個機器人需要導航來裝卸包裹

Warehouse
[圖片來源:upklyak](https://www.freepik.com/free-vector/robots-warehouse-interior-automated-machines_32117680.htm#query=warehouse robot&position=17&from_view=keyword) 在 Freepik

或者一條有幾輛自動駕駛汽車的道路。

Self driving cars
[圖片來源:jcomp](https://www.freepik.com/free-vector/autonomous-smart-car-automatic-wireless-sensor-driving-road-around-car-autonomous-smart-car-goes-scans-roads-observe-distance-automatic-braking-system_26413332.htm#query=self driving cars highway&position=34&from_view=search&track=ais) 在 Freepik

在這些示例中,我們有多個智慧體在環境中並與其他智慧體相互作用。這需要定義一個多智慧體系統。但首先,讓我們瞭解不同型別的多智慧體環境。

不同型別的多智慧體環境

鑑於在多智慧體系統中,智慧體與其他智慧體相互作用,我們可以有不同型別的環境。

  • 合作環境:您的智慧體需要最大化共同利益

例如,在倉庫中,機器人必須協作以高效(儘可能快)地裝卸包裹

  • 競爭/對抗環境:在這種情況下,您的智慧體希望透過最小化對手的利益來最大化自身的利益

例如,在網球比賽中,每個智慧體都想擊敗另一個智慧體

Tennis
  • 對抗與合作的混合環境:就像我們的 SoccerTwos 環境一樣,兩個智慧體屬於一個團隊(藍色或紫色):他們需要相互合作並擊敗對手團隊。
SoccerTwos
此環境由Unity MLAgents 團隊建立。

所以現在我們可能會想:我們如何設計這些多智慧體系統?換句話說,我們如何在一個多智慧體環境中訓練智慧體

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.