什麼是 GAIA？

GAIA 是一個**旨在評估人工智慧助手在需要核心能力（如推理、多模態理解、網路瀏覽和熟練工具使用）的真實世界任務中的表現的基準測試**。

該基準測試包含**466 個精心策劃的問題**，這些問題**對人類來說概念上很簡單**，但**對當前的人工智慧系統來說卻極具挑戰性**。

為了說明差距

GAIA 突出了當前 AI 模型的侷限性，併為評估通用 AI 助手的進展提供了嚴格的基準。

🌱 GAIA 的核心原則

GAIA 精心圍繞以下支柱設計

GAIA 任務分為**三個複雜度遞增的級別**，每個級別測試特定的技能

GAIA levels

2008 年的畫作《烏茲別克刺繡》中顯示的哪些水果曾作為後來被用作電影《最後的航程》中浮動道具的遠洋客輪 1949 年 10 月早餐選單的一部分？以逗號分隔的列表形式給出這些物品，根據它們在畫作中從 12 點鐘位置開始的順時針排列順序排列。使用每種水果的複數形式。

如您所見，這個問題從幾個方面挑戰了 AI 系統

這種任務突出了獨立大型語言模型經常不足的地方，使得 GAIA 成為**基於代理的系統**的理想基準，這些系統可以推理、檢索並執行多步驟和多模態任務。

GAIA capabilities plot

為了鼓勵持續基準測試，**GAIA 在 Hugging Face 上提供了一個公共排行榜**，您可以在其中使用 **300 個測試問題**測試您的模型。

👉 在這裡檢視排行榜

想更深入地瞭解 GAIA 嗎？