深度強化學習課程文件
多智慧體強化學習(MARL)簡介
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
多智慧體強化學習(MARL)簡介
從單一智慧體到多智慧體
在第一個單元中,我們學習了在單一智慧體系統中訓練智慧體。當我們的智慧體獨自處於其環境中時:它不會與其他智慧體合作或協作。
當我們進行多智慧體強化學習(MARL)時,我們處於一種擁有多個智慧體的境地,這些智慧體在一個共同的環境中共享並相互作用。
例如,您可以想象一個倉庫,其中多個機器人需要導航來裝卸包裹。
或者一條有幾輛自動駕駛汽車的道路。
在這些示例中,我們有多個智慧體在環境中並與其他智慧體相互作用。這需要定義一個多智慧體系統。但首先,讓我們瞭解不同型別的多智慧體環境。
不同型別的多智慧體環境
鑑於在多智慧體系統中,智慧體與其他智慧體相互作用,我們可以有不同型別的環境。
- 合作環境:您的智慧體需要最大化共同利益。
例如,在倉庫中,機器人必須協作以高效(儘可能快)地裝卸包裹。
- 競爭/對抗環境:在這種情況下,您的智慧體希望透過最小化對手的利益來最大化自身的利益。
例如,在網球比賽中,每個智慧體都想擊敗另一個智慧體。
- 對抗與合作的混合環境:就像我們的 SoccerTwos 環境一樣,兩個智慧體屬於一個團隊(藍色或紫色):他們需要相互合作並擊敗對手團隊。
所以現在我們可能會想:我們如何設計這些多智慧體系統?換句話說,我們如何在一個多智慧體環境中訓練智慧體?
< > 在 GitHub 上更新