智慧體課程文件
什麼是 GAIA?
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
什麼是 GAIA?
GAIA 是一個**旨在評估人工智慧助手在需要核心能力(如推理、多模態理解、網路瀏覽和熟練工具使用)的真實世界任務中的表現的基準測試**。
它在論文 *”GAIA: 一個通用人工智慧助手基準測試”* 中提出。
該基準測試包含**466 個精心策劃的問題**,這些問題**對人類來說概念上很簡單**,但**對當前的人工智慧系統來說卻極具挑戰性**。
為了說明差距
- **人類**:約 92% 的成功率
- 帶外掛的 GPT-4: ~15%
- **深度研究 (OpenAI)**:在驗證集上的成功率為 67.36%
GAIA 突出了當前 AI 模型的侷限性,併為評估通用 AI 助手的進展提供了嚴格的基準。
🌱 GAIA 的核心原則
GAIA 精心圍繞以下支柱設計
- 🔍 **真實世界難度**:任務需要多步驟推理、多模態理解和工具互動。
- 🧾 **人類可解釋性**:儘管對 AI 來說難度很大,但任務對人類來說概念上仍然簡單易懂。
- 🛡️ **不可遊戲性**:正確答案需要完全執行任務,使暴力破解無效。
- 🧰 **評估的簡單性**:答案簡潔、真實且明確——非常適合基準測試。
難度級別
GAIA 任務分為**三個複雜度遞增的級別**,每個級別測試特定的技能
- **級別 1**:需要少於 5 個步驟和最少的工具使用。
- **級別 2**:涉及更復雜的推理以及多個工具之間的協調,並且有 5-10 個步驟。
- **級別 3**:需要長期規劃和各種工具的高階整合。
一個困難的 GAIA 問題示例
2008 年的畫作《烏茲別克刺繡》中顯示的哪些水果曾作為後來被用作電影《最後的航程》中浮動道具的遠洋客輪 1949 年 10 月早餐選單的一部分?以逗號分隔的列表形式給出這些物品,根據它們在畫作中從 12 點鐘位置開始的順時針排列順序排列。使用每種水果的複數形式。
如您所見,這個問題從幾個方面挑戰了 AI 系統
- 需要**結構化的響應格式**
- 涉及**多模態推理**(例如,分析影像)
- 需要**多跳檢索**相互依賴的事實
- 識別畫作中的水果
- 發現《最後的航程》中使用的遠洋客輪
- 查詢該船 1949 年 10 月的早餐選單
- 需要**正確的排序**和高階規劃才能按正確順序解決
這種任務突出了獨立大型語言模型經常不足的地方,使得 GAIA 成為**基於代理的系統**的理想基準,這些系統可以推理、檢索並執行多步驟和多模態任務。
即時評估
為了鼓勵持續基準測試,**GAIA 在 Hugging Face 上提供了一個公共排行榜**,您可以在其中使用 **300 個測試問題**測試您的模型。
👉 在這裡檢視排行榜
想更深入地瞭解 GAIA 嗎?
< > 在 GitHub 上更新