ScreenSuite - 最全面的 GUI 智慧體評估套件!
釋出 ScreenSuite,最全面的 GUI 智慧體評估套件!
摘要
在過去的幾周裡,我們不懈努力,致力於讓 GUI 智慧體更加開放、易於訪問和整合。在此過程中,我們建立了迄今為止最大的 GUI 智慧體效能基準測試套件 👉 讓我們向您介紹 ScreenSuite。
我們今天非常激動地與您分享:ScreenSuite 是評估視覺語言模型 (VLM) 各種智慧體能力的最全面、最簡單的方法!
什麼是 GUI 智慧體?
執行中的 GUI 智慧體 - 圖片由 OSWorld 提供
簡而言之,AI 智慧體是在虛擬世界中行動的機器人。(更詳盡的定義請看這裡)
特別是,“GUI 智慧體”是存在於圖形使用者介面 (GUI) 中的智慧體。可以把它想象成“一個可以在我的桌面或手機上點選和導航的智慧體”,類似於 Claude 的電腦使用功能。
這實質上意味著,驅動智慧體的 AI 模型將被賦予一個任務,比如“填充這個 Excel 列的其餘部分”,同時提供 GUI 的螢幕截圖。利用這些資訊,它將決定在系統上採取行動:`click(x=130, y=540)` 開啟一個網頁瀏覽器,`type("2025 年 XYZ 的值")`,`scroll(down=2)` 來閱讀更多內容……要看一個 GUI 智慧體實際操作,您可以試試我們由 Qwen2.5-VL-72B 驅動的開放計算機智慧體。
一個優秀的 GUI 智慧體將能夠像我們一樣操作電腦,從而解鎖所有電腦任務:滾動瀏覽谷歌地圖、編輯檔案、線上購物。這涉及到多種難以評估的能力。
ScreenSuite 介紹 🥳
文獻,例如 Xu 等人 (2025) 或 Qin 等人 (2025),通常將 GUI 智慧體的能力分為幾類:
- 感知:正確感知螢幕上顯示的資訊
- 定位:理解元素的位置——這對於點選正確位置至關重要
- 單步操作:透過一個動作正確解決指令
- 多步智慧體:透過在 GUI 環境中的多個動作來解決更高級別的目標。
因此,我們的第一個貢獻是 收集並統一一個包含 13 個基準測試的綜合套件,涵蓋了這些 GUI 智慧體能力的全部範圍。
如果您看上面列出的最後一類,評估多步智慧體能力尤其具有挑戰性,因為它需要虛擬機器來執行智慧體的環境,無論是 Windows、Android 還是 Ubuntu……為了解決這個問題,我們既支援 E2B desktop 遠端沙盒,也從頭建立了一個新選項,可以輕鬆地在 Docker 中啟動 Ubuntu 或 Android 虛擬機器!
類別 | 基準測試 | 環境 | 樣本數 |
---|---|---|---|
感知 / 定位 👁️ | ScreenQA-Short | 移動端 | 8.4k |
ScreenQA-Complex | 移動端 | 11.8k | |
ScreenSpot-v2 | 桌面 | 1.3k | |
ScreenSpot-Pro | 桌面 | 1.6k | |
WebSRC | Web | 52k | |
VisualWebBench | Web | 1.5k | |
單步操作 🎯 | Showdown-clicks | Web | 0.6k |
AndroidControl | 移動端 | 3k | |
Multimodal-Mind2web | Web | 6.4k | |
多步智慧體 🐾 | AndroidWorld (包括 MobileMiniWob) | 移動端 | 116 個任務,無限 |
OSWorld | 桌面 | 369 | |
BrowseComp | Web | 1.27k | |
GAIA-Web | Web | 132 | |
Mind2Web-Live | Web | 208 |
實現細節
我們精心設計了我們的基準測試套件,考慮到了模組化和一致性,確保任務和環境之間有很強的一致性。在需要時,特別是線上基準測試中,我們利用 smolagents 作為框架層,來簡化智慧體的執行和編排。
為了支援可復現性和易用性,我們構建了自定義的 Docker 化容器,允許在本地部署完整的 Ubuntu 桌面或 Android 環境。
與許多現有的 GUI 基準測試依賴於可訪問性樹或其他元資料以及視覺輸入不同,我們的堆疊特意是純視覺的。雖然這可能導致在一些已有的排行榜上的得分有所不同,但我們認為這創造了一個更現實、更具挑戰性的設定,更能反映人類如何感知和與圖形介面互動。
– 所有智慧體框架 (Android World、OSWorld、GAIAWeb、Mind2Web) 都使用 smolagents,並且僅依賴於視覺,不新增任何可訪問性樹或 DOM(與其他來源報道的評估設定形成對比)。– Mind2Web (多模態) 最初使用基於可訪問性樹和螢幕截圖的基於元素名稱的多選,但後來被調整為使用純視覺的邊界框內的點選精度,這大大增加了任務難度。
在 ScreenSuite 上對領先的 VLM 進行排名 📊
我們已經評估了領先的 VLM 在該基準測試上的表現
- Qwen-2.5-VL 系列模型,引數範圍從 3B 到 72B。這些模型以其驚人的定位能力而聞名,換句話說,它們知道影像中任何元素的座標,這使得它們非常適合需要精確點選的 GUI 智慧體。
- UI-Tars-1.5-7B,由字節跳動推出的全能型模型。
- Holo1-7B,H 公司最新推出的模型,在其規模下展現出極其出色的定位效能。
- GPT-4o
我們的得分與各方來源報道的得分基本一致!但需要注意的是,我們僅基於視覺進行評估,這導致了一些差異,詳見上文的實現細節。

💡 請注意,ScreenSuite 並不旨在完全復現業界釋出的基準測試:我們評估的是模型*基於視覺的 GUI 智慧體能力*。因此,在像 Mind2Web 這樣的基準測試中,其他基準測試為智慧體提供瞭如 DOM 或可訪問性樹等資訊豐富的上下文,而我們的評估設定要困難得多,因此 ScreenSuite 的結果與其他來源不匹配。
30 秒內開始您的自定義評估 ⚡️
前往 程式碼倉庫。
- 克隆包含子模組的倉庫:
git clone --recurse-submodules git@github.com:huggingface/screensuite.git
- 安裝軟體包:
uv sync --extra submodules --python 3.11
- 執行
python run.py
- 或者,執行
python examples/run_benchmarks.py
以進行更精細的控制,例如並行執行多個模型的評估。
- 或者,執行
多步基準測試需要裸機來執行和部署桌面/移動*環境*模擬器(詳見 README.md)
後續步驟 🚀
輕鬆執行一致且有意義的評估,使社群能夠快速迭代並在該領域取得進展,正如我們在 Eleuther LM 評估框架、開放 LLM 排行榜和聊天機器人競技場中所見。
我們希望在未來幾個月看到更多功能強大的開放模型,它們能夠可靠地執行各種任務,甚至在本地執行!
為了支援這項工作
- ⭐️ 去給 ScreenSuite 倉庫 點個星,並在 issues/PRs 中給我們反饋!
- 👉 關注 smolagents 組織以獲取最新資訊。