ScreenSuite - 最全面的 GUI 智慧體評估套件!

釋出於 2025 年 6 月 6 日
在 GitHub 上更新

釋出 ScreenSuite,最全面的 GUI 智慧體評估套件!

摘要

在過去的幾周裡,我們不懈努力,致力於讓 GUI 智慧體更加開放、易於訪問和整合。在此過程中,我們建立了迄今為止最大的 GUI 智慧體效能基準測試套件 👉 讓我們向您介紹 ScreenSuite

我們今天非常激動地與您分享:ScreenSuite 是評估視覺語言模型 (VLM) 各種智慧體能力的最全面、最簡單的方法!

什麼是 GUI 智慧體?

執行中的 GUI 智慧體 - 圖片由 OSWorld 提供

簡而言之,AI 智慧體是在虛擬世界中行動的機器人。(更詳盡的定義請看這裡

特別是,“GUI 智慧體”是存在於圖形使用者介面 (GUI) 中的智慧體。可以把它想象成“一個可以在我的桌面或手機上點選和導航的智慧體”,類似於 Claude 的電腦使用功能。

這實質上意味著,驅動智慧體的 AI 模型將被賦予一個任務,比如“填充這個 Excel 列的其餘部分”,同時提供 GUI 的螢幕截圖。利用這些資訊,它將決定在系統上採取行動:`click(x=130, y=540)` 開啟一個網頁瀏覽器,`type("2025 年 XYZ 的值")`,`scroll(down=2)` 來閱讀更多內容……要看一個 GUI 智慧體實際操作,您可以試試我們由 Qwen2.5-VL-72B 驅動的開放計算機智慧體

一個優秀的 GUI 智慧體將能夠像我們一樣操作電腦,從而解鎖所有電腦任務:滾動瀏覽谷歌地圖、編輯檔案、線上購物。這涉及到多種難以評估的能力。

ScreenSuite 介紹 🥳

文獻,例如 Xu 等人 (2025)Qin 等人 (2025),通常將 GUI 智慧體的能力分為幾類:

  1. 感知:正確感知螢幕上顯示的資訊
  2. 定位:理解元素的位置——這對於點選正確位置至關重要
  3. 單步操作:透過一個動作正確解決指令
  4. 多步智慧體:透過在 GUI 環境中的多個動作來解決更高級別的目標。

因此,我們的第一個貢獻是 收集並統一一個包含 13 個基準測試的綜合套件,涵蓋了這些 GUI 智慧體能力的全部範圍。

如果您看上面列出的最後一類,評估多步智慧體能力尤其具有挑戰性,因為它需要虛擬機器來執行智慧體的環境,無論是 Windows、Android 還是 Ubuntu……為了解決這個問題,我們既支援 E2B desktop 遠端沙盒,也從頭建立了一個新選項,可以輕鬆地在 Docker 中啟動 Ubuntu 或 Android 虛擬機器!

類別 基準測試 環境 樣本數
感知 / 定位 👁️ ScreenQA-Short 移動端 8.4k
ScreenQA-Complex 移動端 11.8k
ScreenSpot-v2 桌面 1.3k
ScreenSpot-Pro 桌面 1.6k
WebSRC Web 52k
VisualWebBench Web 1.5k
單步操作 🎯 Showdown-clicks Web 0.6k
AndroidControl 移動端 3k
Multimodal-Mind2web Web 6.4k
多步智慧體 🐾 AndroidWorld (包括 MobileMiniWob) 移動端 116 個任務,無限
OSWorld 桌面 369
BrowseComp Web 1.27k
GAIA-Web Web 132
Mind2Web-Live Web 208

實現細節

我們精心設計了我們的基準測試套件,考慮到了模組化和一致性,確保任務和環境之間有很強的一致性。在需要時,特別是線上基準測試中,我們利用 smolagents 作為框架層,來簡化智慧體的執行和編排。

為了支援可復現性和易用性,我們構建了自定義的 Docker 化容器,允許在本地部署完整的 Ubuntu 桌面Android 環境。

與許多現有的 GUI 基準測試依賴於可訪問性樹或其他元資料以及視覺輸入不同,我們的堆疊特意是純視覺的。雖然這可能導致在一些已有的排行榜上的得分有所不同,但我們認為這創造了一個更現實、更具挑戰性的設定,更能反映人類如何感知和與圖形介面互動。

– 所有智慧體框架 (Android World、OSWorld、GAIAWeb、Mind2Web) 都使用 smolagents,並且僅依賴於視覺,不新增任何可訪問性樹或 DOM(與其他來源報道的評估設定形成對比)。– Mind2Web (多模態) 最初使用基於可訪問性樹和螢幕截圖的基於元素名稱的多選,但後來被調整為使用純視覺邊界框內的點選精度,這大大增加了任務難度。

在 ScreenSuite 上對領先的 VLM 進行排名 📊

我們已經評估了領先的 VLM 在該基準測試上的表現

  • Qwen-2.5-VL 系列模型,引數範圍從 3B 到 72B。這些模型以其驚人的定位能力而聞名,換句話說,它們知道影像中任何元素的座標,這使得它們非常適合需要精確點選的 GUI 智慧體。
  • UI-Tars-1.5-7B,由字節跳動推出的全能型模型。
  • Holo1-7B,H 公司最新推出的模型,在其規模下展現出極其出色的定位效能。
  • GPT-4o

我們的得分與各方來源報道的得分基本一致!但需要注意的是,我們僅基於視覺進行評估,這導致了一些差異,詳見上文的實現細節。

💡 請注意,ScreenSuite 並不旨在完全復現業界釋出的基準測試:我們評估的是模型*基於視覺的 GUI 智慧體能力*。因此,在像 Mind2Web 這樣的基準測試中,其他基準測試為智慧體提供瞭如 DOM 或可訪問性樹等資訊豐富的上下文,而我們的評估設定要困難得多,因此 ScreenSuite 的結果與其他來源不匹配。

30 秒內開始您的自定義評估 ⚡️

前往 程式碼倉庫

  1. 克隆包含子模組的倉庫:git clone --recurse-submodules git@github.com:huggingface/screensuite.git
  2. 安裝軟體包:uv sync --extra submodules --python 3.11
  3. 執行 python run.py
    • 或者,執行 python examples/run_benchmarks.py 以進行更精細的控制,例如並行執行多個模型的評估。

多步基準測試需要裸機來執行和部署桌面/移動*環境*模擬器(詳見 README.md

後續步驟 🚀

輕鬆執行一致且有意義的評估,使社群能夠快速迭代並在該領域取得進展,正如我們在 Eleuther LM 評估框架開放 LLM 排行榜聊天機器人競技場中所見。

我們希望在未來幾個月看到更多功能強大的開放模型,它們能夠可靠地執行各種任務,甚至在本地執行!

為了支援這項工作

社群

註冊登入以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.