智慧體課程文件

實戰

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

實戰

既然您已準備好深入建立您的最終 Agent,那麼接下來讓我們看看如何提交它以供評審。

資料集

此排行榜中使用的資料集包含從 GAIA 驗證集第一級問題中提取的 20 個問題。

所選問題根據回答問題所需的工具和步驟數量進行篩選。

根據 GAIA 基準的當前情況,我們認為讓您嘗試在第一級問題中達到 30% 是一個公平的測試。

GAIA current status!

流程

現在您心中最大的疑問可能是:“我該如何開始提交呢?”

對於本單元,我們建立了一個 API,允許您獲取問題併發送答案以進行評分。以下是路由的摘要(有關互動式詳細資訊,請參閱即時文件

  • GET /questions:檢索過濾後的完整評估問題列表。
  • GET /random-question:從列表中獲取單個隨機問題。
  • GET /files/{task_id}:下載與給定任務 ID 相關聯的特定檔案。
  • POST /submit:提交 Agent 答案,計算分數,並更新排行榜。

提交函式將以精確匹配的方式將答案與標準答案進行比較,因此請很好地提示它!GAIA 團隊在此處分享了一個您的 Agent 的提示示例(在本課程中,請確保您的提交中不包含“FINAL ANSWER”字樣,只需讓您的 Agent 回答答案,別無其他)。

🎨 讓模板成為您自己的!

為了演示與 API 互動的過程,我們提供了一個基本模板作為起點。

請隨意——並積極鼓勵——更改、新增或完全重構它!以最適合您的方法和創造力的任何方式修改它。

為了提交此模板,需要計算 API 所需的 3 個資訊:

  • 使用者名稱:您的 Hugging Face 使用者名稱(在此透過 Gradio 登入獲取),用於標識您的提交。
  • 程式碼連結(agent_code):指向您的 Hugging Face Space 程式碼(.../tree/main)的 URL,用於驗證目的,因此請保持您的空間公開。
  • 答案(answers):您的 Agent 生成的響應列表({"task_id": ..., "submitted_answer": ...}),用於評分。

因此,我們鼓勵您首先在您自己的 Hugging Face 個人資料上覆制此模板

🏆 在此處檢視排行榜

友情提示:此排行榜僅供娛樂!我們知道可以不經完全驗證就提交分數。如果出現太多高分而沒有公開連結支援的情況,我們可能需要審查、調整或刪除某些條目,以保持排行榜的實用性。排行榜將顯示您的空間程式碼庫連結,由於此排行榜僅面向學生,如果您獲得了引以為傲的分數,請保持您的空間公開。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.