ScreenSuite - 最全面的 GUI 智慧體評估套件！

釋出於 2025 年 6 月 6 日

在 GitHub 上更新

贊

釋出 ScreenSuite，最全面的 GUI 智慧體評估套件！
什麼是 GUI 智慧體？

ScreenSuite 介紹 🥳

在 ScreenSuite 上對領先的 VLM 進行排名 📊

30 秒內開始您的自定義評估 ⚡️

後續步驟 🚀

釋出 ScreenSuite，最全面的 GUI 智慧體評估套件！

摘要

在過去的幾周裡，我們不懈努力，致力於讓 GUI 智慧體更加開放、易於訪問和整合。在此過程中，我們建立了迄今為止最大的 GUI 智慧體效能基準測試套件 👉 讓我們向您介紹 ScreenSuite。

我們今天非常激動地與您分享：ScreenSuite 是評估視覺語言模型 (VLM) 各種智慧體能力的最全面、最簡單的方法！

什麼是 GUI 智慧體？

執行中的 GUI 智慧體 - 圖片由 OSWorld 提供

簡而言之，AI 智慧體是在虛擬世界中行動的機器人。（更詳盡的定義請看這裡）

特別是，“GUI 智慧體”是存在於圖形使用者介面 (GUI) 中的智慧體。可以把它想象成“一個可以在我的桌面或手機上點選和導航的智慧體”，類似於 Claude 的電腦使用功能。

這實質上意味著，驅動智慧體的 AI 模型將被賦予一個任務，比如“填充這個 Excel 列的其餘部分”，同時提供 GUI 的螢幕截圖。利用這些資訊，它將決定在系統上採取行動：`click(x=130, y=540)` 開啟一個網頁瀏覽器，`type("2025 年 XYZ 的值")`，`scroll(down=2)` 來閱讀更多內容……要看一個 GUI 智慧體實際操作，您可以試試我們由 Qwen2.5-VL-72B 驅動的開放計算機智慧體。

一個優秀的 GUI 智慧體將能夠像我們一樣操作電腦，從而解鎖所有電腦任務：滾動瀏覽谷歌地圖、編輯檔案、線上購物。這涉及到多種難以評估的能力。

ScreenSuite 介紹 🥳

文獻，例如 Xu 等人 (2025) 或 Qin 等人 (2025)，通常將 GUI 智慧體的能力分為幾類：

感知：正確感知螢幕上顯示的資訊
定位：理解元素的位置——這對於點選正確位置至關重要
單步操作：透過一個動作正確解決指令
多步智慧體：透過在 GUI 環境中的多個動作來解決更高級別的目標。

因此，我們的第一個貢獻是 收集並統一一個包含 13 個基準測試的綜合套件，涵蓋了這些 GUI 智慧體能力的全部範圍。

如果您看上面列出的最後一類，評估多步智慧體能力尤其具有挑戰性，因為它需要虛擬機器來執行智慧體的環境，無論是 Windows、Android 還是 Ubuntu……為了解決這個問題，我們既支援 E2B desktop 遠端沙盒，也從頭建立了一個新選項，可以輕鬆地在 Docker 中啟動 Ubuntu 或 Android 虛擬機器！

類別	基準測試	環境	樣本數
感知 / 定位 👁️	ScreenQA-Short	移動端	8.4k
	ScreenQA-Complex	移動端	11.8k
	ScreenSpot-v2	桌面	1.3k
	ScreenSpot-Pro	桌面	1.6k
	WebSRC	Web	52k
	VisualWebBench	Web	1.5k
單步操作 🎯	Showdown-clicks	Web	0.6k
	AndroidControl	移動端	3k
	Multimodal-Mind2web	Web	6.4k
多步智慧體 🐾	AndroidWorld (包括 MobileMiniWob)	移動端	116 個任務，無限
	OSWorld	桌面	369
	BrowseComp	Web	1.27k
	GAIA-Web	Web	132
	Mind2Web-Live	Web	208

實現細節

我們精心設計了我們的基準測試套件，考慮到了模組化和一致性，確保任務和環境之間有很強的一致性。在需要時，特別是線上基準測試中，我們利用 smolagents 作為框架層，來簡化智慧體的執行和編排。

為了支援可復現性和易用性，我們構建了自定義的 Docker 化容器，允許在本地部署完整的 Ubuntu 桌面或 Android 環境。

與許多現有的 GUI 基準測試依賴於可訪問性樹或其他元資料以及視覺輸入不同，我們的堆疊特意是純視覺的。雖然這可能導致在一些已有的排行榜上的得分有所不同，但我們認為這創造了一個更現實、更具挑戰性的設定，更能反映人類如何感知和與圖形介面互動。

– 所有智慧體框架 (Android World、OSWorld、GAIAWeb、Mind2Web) 都使用 smolagents，並且僅依賴於視覺，不新增任何可訪問性樹或 DOM（與其他來源報道的評估設定形成對比）。– Mind2Web (多模態) 最初使用基於可訪問性樹和螢幕截圖的基於元素名稱的多選，但後來被調整為使用純視覺的邊界框內的點選精度，這大大增加了任務難度。

在 ScreenSuite 上對領先的 VLM 進行排名 📊

我們已經評估了領先的 VLM 在該基準測試上的表現

Qwen-2.5-VL 系列模型，引數範圍從 3B 到 72B。這些模型以其驚人的定位能力而聞名，換句話說，它們知道影像中任何元素的座標，這使得它們非常適合需要精確點選的 GUI 智慧體。
UI-Tars-1.5-7B，由字節跳動推出的全能型模型。
Holo1-7B，H 公司最新推出的模型，在其規模下展現出極其出色的定位效能。
GPT-4o

我們的得分與各方來源報道的得分基本一致！但需要注意的是，我們僅基於視覺進行評估，這導致了一些差異，詳見上文的實現細節。

💡 請注意，ScreenSuite 並不旨在完全復現業界釋出的基準測試：我們評估的是模型*基於視覺的 GUI 智慧體能力*。因此，在像 Mind2Web 這樣的基準測試中，其他基準測試為智慧體提供瞭如 DOM 或可訪問性樹等資訊豐富的上下文，而我們的評估設定要困難得多，因此 ScreenSuite 的結果與其他來源不匹配。

30 秒內開始您的自定義評估 ⚡️

前往程式碼倉庫。

克隆包含子模組的倉庫：git clone --recurse-submodules git@github.com:huggingface/screensuite.git
安裝軟體包：uv sync --extra submodules --python 3.11
執行 python run.py
- 或者，執行 python examples/run_benchmarks.py 以進行更精細的控制，例如並行執行多個模型的評估。

多步基準測試需要裸機來執行和部署桌面/移動*環境*模擬器（詳見 README.md）

後續步驟 🚀

輕鬆執行一致且有意義的評估，使社群能夠快速迭代並在該領域取得進展，正如我們在 Eleuther LM 評估框架、開放 LLM 排行榜和聊天機器人競技場中所見。

我們希望在未來幾個月看到更多功能強大的開放模型，它們能夠可靠地執行各種任務，甚至在本地執行！

為了支援這項工作

⭐️ 去給 ScreenSuite 倉庫點個星，並在 issues/PRs 中給我們反饋！
👉 關注 smolagents 組織以獲取最新資訊。

更多部落格文章

我們現在在 smolagents 中支援 VLM 了！

作者 2025 年 1 月 24 日 • 109

CodeAgents + Structure: 一種更好的執行操作的方式

作者 2025 年 5 月 28 日 • 71

社群

透過拖放到文字輸入框、貼上或點選此處上傳圖片、音訊和影片。

點選或貼上此處以上傳圖片

· 註冊或登入以發表評論

贊