ViDoRe Benchmark V2:提升視覺檢索的標杆
為什麼要推出新的基準?
自原始 ViDoRe 基準釋出以來,用於評估文件檢索任務的視覺模型,視覺檢索模型取得了顯著進展!原始 ColPali 模型的平均 nDCG@5 得分為 81.3,而目前排行榜上的 SOTA 模型已超過 90 的 nDCG@5,一些任務變得“過於簡單”,無法提供有意義的訊號!
隨著基準對 SOTA 模型趨於飽和,真正衡量改進和理解模型在實際場景中能力的空間有限。為了繼續推動視覺檢索的邊界,推出一個專門挑戰這些高階模型的新基準變得至關重要:ViDoRe Benchmark V2。
推出 ViDoRe Benchmark V2 的動機
在開發 ViDoRe Benchmark V2 時,我們的主要目標是建立一個反映現實世界檢索挑戰的基準——困難、多樣且有意義。當前的基準存在侷限性,無法準確反映真實使用者行為和複雜的檢索場景。我們發現了現有基準中的三個關鍵問題:
查詢的提取性質: 當前基準通常依賴於提取式查詢,提供不切實際的檢索上下文,因為真實使用者很少從文件中的精確短語來構建查詢。
單頁查詢偏見: 許多基準過分強調從單頁上下文中進行檢索,而忽略了實際應用中常見的複雜、多文件或跨文件查詢。
合成查詢生成中的挑戰: 純粹的合成基準,雖然理論上很吸引人,但如果沒有大量的人工監督,很難有效實施。它們經常產生異常值、不相關或瑣碎的查詢,使得人工過濾變得必不可少但成本高昂。
設計決策和所用技術
為了應對這些挑戰並建立穩健、真實的基準,ViDoRe Benchmark V2 包含了幾項創新功能:
盲目上下文查詢: 實際上,使用者通常不瞭解他們正在查詢的語料庫內容。為了減少大多數合成查詢-文件資料集(資料集通常是在瞭解文件內容的情況下建立的)中普遍存在的提取偏見,我們只向查詢標註模型提供了有關文件的有限資訊(摘要、元資料等),並過濾掉了由此產生的許多不相關查詢,從而更好地再現了真實世界使用者與語料庫的互動。
長文件和跨文件查詢: 與傳統基準不同,ViDoRe Benchmark V2 強調長格式和跨文件查詢,這更接近真實的檢索場景。多個數據集專門關注涉及綜合文件或多文件檢索任務的場景。
混合合成和人工參與建立: 認識到單獨合成查詢生成的侷限性,我們採用了混合方法——合成生成查詢並經過大量人工稽核進行完善。儘管這個過程非常耗時,但它確保了查詢質量和資料集可靠性顯著提高。
ViDoRe Benchmark V2 的資料集選擇
ViDoRe Benchmark V2 選擇的資料集具有多樣性、公開可用性和挑戰性。每個資料集都具有獨特的視覺複雜性,適用於實際檢索任務,包括將查詢翻譯成法語、英語、西班牙語和德語的多語言版本。這種多語言方法進一步擴充套件了基準的適用性和挑戰水平。
資料集名稱 | 原始版本 | 多語言版本 | 原始文件語言 | 查詢語言 | 文件數量 | 查詢數量 | 頁面數量 | Qrels 數量 | 平均頁面/查詢 | 評論 |
---|---|---|---|---|---|---|---|---|---|---|
保險 | vidore/synthetic_insurance_filtered_v1.0 |
vidore/synthetic_insurance_filtered_v1.0_multilingual |
法語 | 法語 | 4 | 18 | 260 | 86 | 4.7 | 小但有挑戰性,多文件 |
麻省理工學院組織互動 | vidore/synthetic_mit_biomedical_tissue_interactions_unfiltered |
vidore/synthetic_mit_biomedical_tissue_interactions_unfiltered_multilingual |
英語 | 英語 | 27 | 160 | 1016 | 515 | 3.2 | 最大資料集,最提取 |
世界經濟報告 | vidore/synthetic_economics_macro_economy_2024_filtered_v1.0 |
vidore/synthetic_economics_macro_economy_2024_filtered_v1.0_multilingual |
英語 | 英語 | 4 | 18 | 260 | 86 | 4.7 | 跨文件查詢,高複雜性 |
ESG 報告 | vidore/synthetic_rse_restaurant_filtered_v1.0 |
vidore/synthetic_rse_restaurant_filtered_v1.0_multilingual |
英語 | 法語 | 30 | 57 | 1538 | 222 | 3.9 | 原生跨語言,特定行業 |
評估模型
為了評估 ViDoRe Benchmark 2 上的模型,我們遵循以下步驟:
選項 1:使用 CLI
以下是在 ViDoRe Benchmark 2 上使用 ColPali 型別檢索器的 CLI 示例。有關其他檢索器,請參閱此倉庫。
vidore-benchmark evaluate-retriever \
--model-class colpali \
--model-name vidore/colpali-v1.3 \
--collection-name vidore/vidore-benchmark-v2-dev-67ae03e3924e85b36e7f53b0 \
--dataset-format beir \
--split test
選項 2:建立自定義檢索器
有關如何操作的詳細說明,請參閱此處
結果
以下是 ViDoRe Benchmark 2 上視覺檢索模型的 ndcg_at_5
結果示例:
資料集 | voyageai | metrics-colqwen2.5-3B | colsmolvlm-v0.1 | colqwen2-v1.0 | colpali-v1.2 | dse-qwen2-2b-mrl-v1 | colSmol-256M | colpali-v1.3 | colqwen2.5-v0.2 | dse-llamaindex | tsystems-colqwen2.5-3b-multilingual-v1.0 | gme-qwen2-VL-7B | visrag-ret | colSmol-500M | colpali-v1.1 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
restaurant_esg_reports_beir | 0.561 | 0.645 | 0.624 | 0.622 | 0.321 | 0.614 | 0.460 | 0.511 | 0.684 | 0.631 | 0.721 | 0.658 | 0.537 | 0.522 | 0.465 |
insurance | 0.641 | 0.579 | 0.555 | 0.651 | 0.560 | 0.655 | 0.504 | 0.598 | 0.603 | 0.688 | 0.693 | 0.607 | 0.505 | 0.587 | 0.547 |
insurance_multilingual | 0.595 | 0.557 | 0.432 | 0.572 | 0.458 | 0.563 | 0.341 | 0.501 | 0.532 | 0.610 | 0.600 | 0.554 | 0.452 | 0.377 | 0.484 |
synthetic_economics_macro_economy_2024 | 0.588 | 0.566 | 0.609 | 0.615 | 0.531 | 0.615 | 0.534 | 0.516 | 0.598 | 0.612 | 0.548 | 0.629 | 0.596 | 0.503 | 0.567 |
synthetic_mit_biomedical_tissue_interactions | 0.564 | 0.639 | 0.581 | 0.618 | 0.585 | 0.592 | 0.532 | 0.597 | 0.636 | 0.606 | 0.653 | 0.640 | 0.548 | 0.543 | 0.564 |
synthetic_mit_biomedical_tissue_interactions_multilingual | 0.515 | 0.569 | 0.505 | 0.565 | 0.557 | 0.551 | 0.340 | 0.565 | 0.611 | 0.569 | 0.617 | 0.551 | 0.477 | 0.421 | 0.507 |
synthetic_rse_restaurant | 0.472 | 0.496 | 0.511 | 0.534 | 0.519 | 0.549 | 0.272 | 0.570 | 0.574 | 0.503 | 0.517 | 0.543 | 0.459 | 0.392 | 0.461 |
synthetic_rse_restaurant_multilingual | 0.462 | 0.492 | 0.476 | 0.542 | 0.540 | 0.557 | 0.313 | 0.557 | 0.574 | 0.512 | 0.533 | 0.567 | 0.464 | 0.391 | 0.481 |
synthetics_economics_macro_economy_2024_multilingual | 0.550 | 0.535 | 0.474 | 0.532 | 0.479 | 0.528 | 0.273 | 0.499 | 0.565 | 0.528 | 0.512 | 0.562 | 0.487 | 0.361 | 0.438 |
平均分 | 0.550 | 0.564 | 0.530 | 0.583 | 0.505 | 0.580 | 0.397 | 0.546 | 0.597 | 0.584 | 0.599 | 0.590 | 0.503 | 0.455 | 0.502 |
基準註釋
我們調整了 voyageAI API 的評估程式,導致 ViDoRe benchmark v1 上的效能略低於 voyageAI 報告的值。這種差異可能是由於我們將輸入影像的大小調整為最大影像高度 1200 畫素,以方便高效的基準測試,而 voyageAI 的原始基準測試設定中可能沒有應用此預處理步驟。
到目前為止,最好的模型似乎是基於 Qwen2.5 的。但是請注意,這些模型不屬於開放許可證。
結果洞察
ViDoRe v2 基準的洞察
- ViDoRe v2 基準與原始 ViDoRe 基準保持著強相關性,這體現在兩個版本中模型排名的一致性。
- ViDoRe v2 為未來的改進留下了巨大的空間,這與 ViDoRe v1 形成了對比,後者已接近效能飽和(分數超過 90%)。
- 某些模型表現出輕微過擬合訓練分佈的跡象,導致對新資料的泛化能力下降(例如,vidore/colSmol-256M、vidore/colSmol-500M、Metric-AI/ColQwen2.5-3b-multilingual-v1.0)。這些模型在 V2 上的表現比其在 V1 上的表現所預期的更差。
- ViDoRe v2 中的多語言分割更準確地評估了視覺檢索模型在非英語環境中的能力。我們觀察到僅使用英語 VLM 訓練的英語模型與非英語模型之間存在顯著的效能差距。
- 更大的模型規模是有益的;值得注意的是,gme-qwen7B 模型實現了強大的整體效能,但計算成本和推理延遲也顯著增加。反之,雖然小於 1B 引數的模型在尺寸上令人印象深刻,但它們往往表現滯後,尤其是在以前未見過的資料分佈上。
- 我們傾向於看到人工標註資料集(esg_human)在模型效能上表現出更好的區分度,這表明它的質量略高於合成數據集,並且是一個更具判別性的訊號。
我們的目標是讓 ViDoRe V2 成為一個動態的“活基準”,定期增加新的任務和資料集。為此,我們歡迎並鼓勵社群貢獻資料集和評估任務。這種協作方法有助於確保基準保持相關性、實用性,並反映現實世界的挑戰。
注意
自資料集釋出以來,由於法律版權原因,保險資料集已從資料集中刪除。
引用
@misc{macé2025vidorebenchmarkv2raising,
title={ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval},
author={Quentin Macé and António Loison and Manuel Faysse},
year={2025},
eprint={2505.17166},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2505.17166},
}
致謝
對於對 Visual RAG、ColPali 或代理系統進行深入討論和專案感興趣的專業人士,請隨時聯絡 contact@illuin.tech,並聯系我們在 Illuin Technology 的專家團隊,他們可以幫助加速您的 AI 工作!
我們期待您的反饋和貢獻!如果您有任何有趣的/對檢索任務具有挑戰性的文件集和相關查詢,請隨時給我們傳送郵件!