TimeScope:你的影片大型多模態模型能走多遠?

釋出於2025年7月23日
在 GitHub 上更新

TL;DR

TimeScope 是一個開源基準,旨在衡量視覺-語言模型理解長影片的能力。透過在1分鐘到8小時不等的影片中新增短“針”片段,它評估了三項技能:

  • 本地化檢索,
  • 資訊合成,
  • 細粒度時間感知。TimeScope 揭示了許多最先進的模型在真正的時間理解方面仍然面臨挑戰。

目錄

多模態人工智慧的最新進展產生了聲稱能理解長達數小時影片的模型。這一趨勢與長上下文語言模型的進步相呼應,後者在對長文字進行推理方面表現出色。隨之,視覺-語言系統現在宣傳其上下文視窗可以處理數千幀。但這些宣告需要仔細審查:這些模型是否真正展示了對事件序列的理解?它們是否僅限於表面級別的檢索/識別?關鍵在於要問它們的能力是否被誇大了。

HELMRULER 等文字基準已經暴露了長上下文宣告的脆弱性,表明模型在任務要求不僅僅是簡單檢索(如長上下文長度下的推理或聚合)時,常常會遇到困難。然而,在影片領域,我們仍在迎頭趕上。最常見的測試,影片大海撈針 (VideoNIAH),將靜態影像作為“針”插入影片中,有效地測量的是視覺搜尋而非真正的時間動態。因此,即使是宣傳擁有巨大幀容量的頂級模型,也很少在超過約256幀的情況下進行訓練,並且在 Video-MME 等基準上進一步測試時,效能會急劇下降。

這種衡量差距讓我們不禁要問:一個模型“理解”長影片到底意味著什麼?為了解決這個問題,我們很高興推出 TimeScope,一個新的託管在 Hugging Face 上的開源基準。TimeScope 透過將幾個短(約5-10秒)的影片片段——我們的“針”——插入到從1分鐘到8小時不等的基礎影片中,來探測長影片能力的極限。透過三種不同的任務型別,它不僅評估檢索,還評估合成、定位和細粒度運動分析,從而提供更全面的時間理解檢視。

為什麼是 TimeScope?推動更好的影片基準

長影片 AI 的前景是變革性的——它使代理能夠總結數小時的片段,檢測細微的異常,並回答關於擴充套件敘事的複雜問題。整合到機器人技術中,這些模型可以分析長時間操作,即時適應,並推動自主決策。同樣強大的是個人助手的願景,它能理解日常生活並提供持續、可操作的反饋。

在實踐中,這導致了能力的誇大。模型可能聲稱能處理10,000多幀,但訓練資料通常限制在每個片段256幀,導致在更長的輸入上效能下降。我們已經在評估中看到了這一點,提高幀取樣率會使要求時間洞察力的任務的準確性下降。

TimeScope 透過強調長影片理解的三個支柱來改變現狀:

  1. 本地化檢索:模型能否在一個龐大的影片中發現特定短片段並回答相關問題?
  2. 資訊合成:它能否從時間軸上的多個點收集並整理細節?
  3. 細粒度時間感知:它能否分析需要密集多幀取樣的“針”片段中的運動和事件?

基準設計

TimeScope 的核心思想是使用短影片片段作為“針”,並且不僅僅是發現這些針,它還推動模型深入理解整個影片。我們從一個長基礎影片(例如,一部紀錄片、一場講座或環境錄影)開始,並在隨機位置插入一個或多個手動篩選的短影片針(每個5-10秒)。這些針包含解決任務所需的關鍵資訊,迫使模型處理整個輸入,而不能透過稀疏取樣等捷徑。

Benchmark Design Diagram

圖1:TimeScope 的“針”插入過程概覽。一個長的基礎影片(1分鐘到8小時)作為“乾草堆”,我們將短影片“針”(約5-10秒)剪輯到其中。任務要求檢測、合成或分析這些嵌入在不同深度的“針”中的內容。

我們評估了三種“針”型別,每種都針對長影片理解的不同方面:

1. 本地化檢索

這測試了對區域性事件的基本檢索和理解能力。問題設定使得從“針”中取樣相關幀就足夠了——就像詢問較長影片中較短部分的內容一樣。

示例
影片中顯示的是哪種交通工具?

2. 資訊合成

在此,我們將多個基於文字的“針”(例如,2-4個短片透過螢幕文字顯示“秘密單詞”)嵌入到影片的不同位置。模型必須識別所有單詞並按時間順序報告,模擬從分散場景中提取時間戳或關鍵事實等任務。這需要掃描整個時間線並理解相對位置。

3. 細粒度時間感知

對於關注短片段內運動或序列的問題,單幀取樣無法滿足要求——模型需要感知跨幀的動態。這旨在探究長上下文處理是否能保持時間保真度。

示例
這個人揮斧頭揮了幾次?(a) 一次 (b) 兩次 (c) 三次 (d) 四次 (e) 五次 (f) 六次

透過不同的影片長度和不同的“針”放置位置,TimeScope 衡量了模型能真正處理的影片量——並顯示出效能會隨著影片長度的增加而下降。

評估與排行榜

為了啟動這項工作,我們對一系列領先的視覺-語言模型進行了 TimeScope 測試,包括開源熱門模型和 Gemini 2.5-Pro 等巨頭。結果突顯了該基準的價值:即使是那些聲稱能很好處理長影片的模型,在面對真正的長影片任務時仍然表現掙扎。這些發現揭示了明顯的模式——在特定時長下效能急劇下降,在靜態檢索方面表現出色,而在運動分析方面存在不足——併為模型訓練中的有針對性改進鋪平了道路。有關詳細結果和視覺化,請檢視上面嵌入的我們的 Hugging Face Space。

我們學到了什麼?

模型大小並非萬能。Qwen 2.5-VL 3B 和 7B,以及 InternVL 2.5 模型在 2B、4B 和 8B 引數下的長影片曲線幾乎與其較小版本無法區分。它們都在大致相同的上下文長度下達到平臺期,表明簡單地擴充套件引數並不能自動賦予更長的時間範圍。

Gemini 2.5-Pro 獨佔鰲頭。它是唯一一款在超過一小時的影片上仍保持高準確率的模型。

任務之間的權衡很重要。Qwen 2.5-VL 在資訊合成(OCR)任務中表現出色——識別和排序分散的文字片段——但在細粒度時間感知方面落後,因為後者需要精確的運動計數。

結論 – 讓我們提高長影片AI的標準

TimeScope 表明,“數小時影片理解”仍然更多是口號而非現實。透過揭示即使是最先進的模型在時間推理、資訊合成和運動感知方面遇到的障礙,該基準促使我們重新思考如何訓練和評估多模態系統。

  1. 執行演示 – 探索公共空間:https://huggingface.co/spaces/Apollo-LMMs/TimeScope
  2. 本地基準測試 – 使用兩條快速命令評估任何模型
    pip install git+https://github.com/EvolvingLMMs-Lab/lmms-eval.git
    python -m lmms_eval --model-path <your-model> --benchmark timescope
    
  3. 加入排行榜 – 提交你的分數,看看你的模型表現如何。

我們希望這個基準能幫助社群穩步、可衡量地朝著更好地隨時間理解影片的模型邁進。

我們正在開源 TimeScope 的所有元件:

社群

已刪除
此評論已被隱藏

註冊登入 評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.