AWorld多智慧體系統在GAIA排行榜上排名第一
摘要
大型語言模型(LLMs)的快速發展使得智慧體能夠利用各種外部工具解決複雜的現實問題。然而,隨著智慧體對工具的依賴增加,它們面臨著新的挑戰。多源的長上下文以及引入的噪聲或不相關的工具輸出可能會降低可靠性和準確性。這些問題凸顯了基於智慧體系統對更高穩定性的需求。
為了解決這個問題,我們提出了一種基於AWorld框架的魯棒多智慧體系統(MAS)架構。在我們的方法中,執行智慧體(Execution Agent)在關鍵步驟呼叫守衛智慧體(Guard Agent)來驗證和糾正推理過程。這種設計有助於減少噪聲相關的錯誤,提高問題解決的魯棒性。
透過在GAIA測試資料集上進行嚴格的受控實驗,我們表明,與單智慧體系統(Single Agent System)或標準工具增強系統相比,引入守衛智慧體顯著提高了解決方案的有效性和穩定性。我們的研究結果證明了協作智慧體角色在構建更可靠、更值得信賴的智慧系統方面的實際價值。
多智慧體系統(MAS)設計與實現
方法
- 基於AWorld框架開發了多智慧體系統(MAS),利用“智慧體即工具”機制,並引入守衛智慧體進行邏輯驗證。
- 自適應干預:執行智慧體根據系統提示和上下文分析動態決定何時呼叫其他智慧體。
- 邏輯驗證:執行智慧體啟動問題解決過程,而守衛智慧體則監控、糾正並提醒邏輯過程,從而提高解決方案的準確性。
- 守衛智慧體使用與執行智慧體相同的基礎模型實現(例如,Gemini 2.5 Pro),確保了智慧體的一致性和增強的協作能力。
實驗
問題集
- GAIA測試集中的109個問題,分為L1/L2:56/53
- 問題特徵:
- 辦公相關:excel、word、ppt、txt、程式碼、下載工具
- 搜尋相關:google搜尋、維基等。
- 實驗設定最大限度地減少了外部因素(如瀏覽器不穩定)的影響,為比較不同智慧體構建方法提供了一致的受控環境。
實驗版本設計
- Gemini 2.5 Pro:由單個Gemini 2.5 Pro模型直接進行問答,不呼叫工具或進行智慧體協作。
- 單智慧體系統(SAS):單個模型加工具,模型可以根據問題和上下文決定是僅使用外部工具還是獨立回答(Gemini 2.5 Pro)。
- 多智慧體系統(MAS):執行智慧體+守衛智慧體。在單智慧體系統基礎上,將守衛智慧體作為額外的備選工具。執行智慧體可以在問題解決過程中呼叫守衛智慧體進行即時邏輯驗證。
實驗執行設定
- 每個版本對109項任務進行三次獨立執行,所有任務均使用溫度設定為0.1的Gemini 2.5 Pro模型。
- 對於因格式不正確而導致答案無效的任何任務,將重新執行該任務,直到獲得有效答案。
- 每個版本在每輪報告109個問題的pass@1準確率。每個版本還報告所有執行的pass@3準確率。
實驗結果
Gemini 2.5 Pro | SAS | Gemini 2.5 Pro vs SAS | MAS | SAS vs MAS | |
---|---|---|---|---|---|
第一輪 Pass@1 | 32.11% | 57.8% | 71.56% | ||
第二輪 Pass@1 | 30.28% | 64.22% | 65.14% | ||
第三輪 Pass@1 | 32.11% | 65.14% | 66.97% | ||
Pass@3 | 38.53% | 81.65% | +111.91% | 83.49% | +2.25% |
Pass@1_平均值 | 31.5% | 62.39% | +98.06% | 67.89% | +8.82% |
Pass@1_標準差 | 0.00863 | 0.03265 | +278.33% | 0.02701 | -17.3% |
主要發現
多智慧體設定中守衛智慧體的整合提高了問題解決的準確性
- 基礎模型透過內部知識和測試時邏輯,平均正確解決了31.5%(pass@1)的GAIA問題。
- 單智慧體系統在模型基礎上引入了工具使用,透過獲取真實世界資料來擴充套件上下文,顯著提高了準確性(平均pass@1 = 62.39%,提高了近2倍)。
- 帶有守衛智慧體校準關鍵解決方案步驟的實驗性多智慧體版本進一步提高了準確性(平均pass@1 = 67.89%,比單智慧體系統增加了8.82%;pass@3 = 83.49%,增加了2.25%)。
整合守衛智慧體也增強了穩定性
- 在溫度0.1時,基礎模型的pass@1標準差為0.0086。
- 單智慧體系統由於外部工具引入的不確定性,使分數方差增加了近4倍。
- 多智慧體實驗設定,由於守衛智慧體的邏輯約束,將pass@1標準差降低到0.027,與單智慧體系統相比降低了17.3%。
見解
優秀的問答模型並不等於優秀的工具使用者
基礎模型(Gemini 2.5 Pro)開箱即用就能解決GAIA任務的很大一部分,這表明它在預訓練期間獲得了大量的相關知識。然而
- 該模型無法可靠地判斷,對於給定問題,是應該完全依賴內部知識還是何時呼叫外部工具。
- 新增工具訪問可能無法保留先前的(內部)解決方案路徑。例如,至少存在一個任務,基礎模型在pass@3中解決了該任務,但單智慧體系統或實驗版本未能解決。
不同的模式受不同上下文的刺激
- 基礎單模型使用內部知識(類似於“背誦”或零階模式)回答問題,由問答提示框定。
- 在“智慧體”模式下,系統提示、工具列表和注入的輸出構建了執行時上下文,使模型優先考慮外部資訊,同時可能抑制內部知識搜尋(類似於一階推理)。
- 大多數模型缺乏足夠的自我意識來可靠地決定何時/使用哪種模式。因此,一個好的問答模型不自動是一個好的工具使用者。
儘管基礎模型已經能夠處理很大一部分問題,但仍缺乏穩定的自主模式切換機制。鑑於實驗觀察到整合工具的智慧體顯著提高了準確性,此類智慧體架構為通用智慧解決方案提供了理想途徑。
上下文最佳化與邏輯收斂:“第二雙眼睛”效應
引入大量外部工具顯著提高了問題解決的準確性,但同時也大大增加了上下文長度,對解決方案的穩定性提出了更高的要求。實驗結果顯示,與Gemini 2.5 Pro相比,單智慧體系統的pass@1標準差增加了三倍。
借鑑國際數學奧林匹克競賽中“解題者-審閱者”多智慧體範式,我們的方法使執行智慧體能夠呼叫守衛智慧體進行審查。這一過程實質上轉變了對話視角,優化了上下文。在查詢相同的底層模型時,這種機制促使模型關注可能此前因過長上下文而模糊的邏輯細節。守衛智慧體隨後生成更優的提示,作為執行智慧體的新鮮上下文,幫助其重新聚焦注意力,並促進其向正確答案收斂。實驗表明,引入守衛智慧體使pass@1標準差相比單智慧體系統降低了17.3%。
潛在改進
當前的實驗版本作為快速技術驗證。未來仍有顯著的增強空間——例如,使守衛智慧體能夠獨立呼叫其他工具(如搜尋引擎),以實現更高質量的交叉驗證和進一步提高穩定性。
進一步的研究和開發還可以專注於增強模型自主模式切換的能力。隨著模型架構、自反思機制和自適應提示策略的進步,此類系統的未來迭代可能能夠更可靠地判斷何時利用內部知識以及何時呼叫外部工具。這種進展可以使AI智慧體在廣泛的複雜任務中實現更大的靈活性、效率和準確性。
作者
謝致天,吳秦彤,於承悅,莊宸屹,顧金傑
AWorld團隊,Inclusion AI
GitHub 倉庫
本技術報告介紹了我們新穎的框架和持續智慧體學習演算法,展示了它們透過動態、自演進學習系統提升智慧體智慧的潛力。