智慧體課程文件

什麼是 GAIA?

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

什麼是 GAIA?

GAIA 是一個**旨在評估人工智慧助手在需要核心能力(如推理、多模態理解、網路瀏覽和熟練工具使用)的真實世界任務中的表現的基準測試**。

它在論文 *”GAIA: 一個通用人工智慧助手基準測試”* 中提出。

該基準測試包含**466 個精心策劃的問題**,這些問題**對人類來說概念上很簡單**,但**對當前的人工智慧系統來說卻極具挑戰性**。

為了說明差距

  • **人類**:約 92% 的成功率
  • 帶外掛的 GPT-4: ~15%
  • **深度研究 (OpenAI)**:在驗證集上的成功率為 67.36%

GAIA 突出了當前 AI 模型的侷限性,併為評估通用 AI 助手的進展提供了嚴格的基準。

🌱 GAIA 的核心原則

GAIA 精心圍繞以下支柱設計

  • 🔍 **真實世界難度**:任務需要多步驟推理、多模態理解和工具互動。
  • 🧾 **人類可解釋性**:儘管對 AI 來說難度很大,但任務對人類來說概念上仍然簡單易懂。
  • 🛡️ **不可遊戲性**:正確答案需要完全執行任務,使暴力破解無效。
  • 🧰 **評估的簡單性**:答案簡潔、真實且明確——非常適合基準測試。

難度級別

GAIA 任務分為**三個複雜度遞增的級別**,每個級別測試特定的技能

  • **級別 1**:需要少於 5 個步驟和最少的工具使用。
  • **級別 2**:涉及更復雜的推理以及多個工具之間的協調,並且有 5-10 個步驟。
  • **級別 3**:需要長期規劃和各種工具的高階整合。

GAIA levels

一個困難的 GAIA 問題示例

2008 年的畫作《烏茲別克刺繡》中顯示的哪些水果曾作為後來被用作電影《最後的航程》中浮動道具的遠洋客輪 1949 年 10 月早餐選單的一部分?以逗號分隔的列表形式給出這些物品,根據它們在畫作中從 12 點鐘位置開始的順時針排列順序排列。使用每種水果的複數形式。

如您所見,這個問題從幾個方面挑戰了 AI 系統

  • 需要**結構化的響應格式**
  • 涉及**多模態推理**(例如,分析影像)
  • 需要**多跳檢索**相互依賴的事實
    • 識別畫作中的水果
    • 發現《最後的航程》中使用的遠洋客輪
    • 查詢該船 1949 年 10 月的早餐選單
  • 需要**正確的排序**和高階規劃才能按正確順序解決

這種任務突出了獨立大型語言模型經常不足的地方,使得 GAIA 成為**基於代理的系統**的理想基準,這些系統可以推理、檢索並執行多步驟和多模態任務。

GAIA capabilities plot

即時評估

為了鼓勵持續基準測試,**GAIA 在 Hugging Face 上提供了一個公共排行榜**,您可以在其中使用 **300 個測試問題**測試您的模型。

👉 在這裡檢視排行榜

想更深入地瞭解 GAIA 嗎?

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.