LAVE:在 Docmatix 上使用 LLM 進行零樣本 VQA 評估——我們還需要微調嗎?
在開發 Docmatix 的過程中,我們注意到在 Docmatix 上微調 Florence-2 在 DocVQA 上表現出色,但在基準測試中得分較低。為了提高效能,我們不得不進一步在 DocVQA 上微調模型,以學習基準測試所需的語法。有趣的是,這種額外的微調在人類評估者看來表現更差,這就是為什麼我們主要將其用於消融研究,併發布了僅在 Docmatix 上訓練的模型以供更廣泛的使用。
儘管生成的答案在語義上與參考答案一致,如圖 1 所示,但它們仍然得分很低。這引發了這些問題:我們應該微調模型以改進這些指標,還是應該開發更符合人類感知的新指標?

圖 1:Docmatix 資料集中零樣本生成和參考答案的 t-SNE 視覺化
引言
我們社群最近專注於分佈外 (OOD) 評估,利用零樣本遷移到未見的 VQA 任務或在一個 VQA 資料集上進行微調並在另一個數據集上進行評估等方法。隨著 Docmatix、SciGraphQA、SimVQA 等用於微調視覺語言模型 (VLM) 的合成數據集的興起,這種轉變變得越來越重要。
傳統上,VQA 準確性一直是評估模型效能的主要指標。它依賴於模型的預測答案與人類標註的一組參考答案之間的精確字串匹配。該指標效果良好,因為 VQA 評估遵循獨立同分布 (IID) 正規化,其中訓練和測試資料分佈相似,允許模型有效適應詳細資訊請參見此處。
在 OOD 設定中,生成的答案可能與參考答案不匹配,儘管由於格式、特異性或解釋的差異,它們可能是正確的。圖 1 完美地說明了這種正規化,其中我們比較了合成數據集中的零樣本生成標題與參考標題。對於指令生成的K資料集及其人工策展的對應資料集來說,情況尤其如此。一些方法試圖使答案格式與參考文獻對齊,但這隻解決了症狀,而不是評估指標有缺陷的根本原因。雖然人工評估是可靠的,但它成本高昂且不可擴充套件,這凸顯了需要更好地與人類判斷對齊的指標。
方法
Docmatix是最大的合成 DocVQA 資料集,從人工整理的文件資料集PDFA生成。它比以前可用的資料集大 100 倍。人工整理的對應資料集是 DocVQA,它作為文件理解 VQA 模型的評估基準。在這篇文章中,我們將使用 Docmatix 的子集,其中包含大約 200 個測試樣本,可在此處下載:Docmatix-zero-shot-exp。


圖 2:Docmatix 和 DocVQA 測試集中的問答對示例。注意:此處未顯示相應的影像。
雖然 Docmatix 和 DocVQA 中的問答對內容相似,但它們的風格卻大相徑庭。傳統的指標,如 CIDER、ANLS 和 BLEU,在這種語境下的零樣本評估中可能過於嚴格。受 t-SNE 中觀察到的嵌入相似性(圖 1)的啟發,我們決定使用不同的評估指標。在這篇文章中,我們考慮使用 LAVE(LLM 輔助 VQA 評估)指標,以更好地評估這個未見但語義相似的資料集上的泛化能力。



圖 3:Docmatix 和 DocVQA 資料集中問題、答案和影像特徵的 t-SNE 視覺化



圖 5:Docmatix 和 DocVQA 資料集中問題、答案和影像特徵的 t-SNE 視覺化
在我們的評估中,我們選擇 MPLUGDocOwl1.5 作為基線模型。該模型在原始 DocVQA 資料集的測試子集上取得了 84% 的 ANLS 分數。然後,我們對 Docmatix 的子集(包含 200 張影像)進行了零樣本生成。我們使用 Llama-2-Chat-7b 對答案進行評分。
關於 LAVE
我們遵循了論文中概述的程式。VQA 評估被框定為一種答案評級任務,適用於 LLM 的上下文學習。我們使用 1 到 3 的評級量表來考慮模稜兩可的問題或不完整的答案。提示符包括任務描述、幾個輸入/輸出演示以及測試示例的輸入。
我們對任務描述進行了結構化,並加入了“評分前給出理由”的指令,以展示所分配評分的理由。每個演示都包含一個問題、一組參考答案、候選答案、答案評分以及評分的解釋。我們還加入了“只提供一個評分”的指令,以避免逐句分析,這有時會導致多個評分。
task_description = """You are given a question, a set of gold-standard reference answers written by
experts, and a candidate answer. Please rate the accuracy of the candidate answer for the question
considering the reference answers. Use a scale of 1-3, with 1 indicating an incorrect or irrelevant
answer, 2 indicating an ambiguous or incomplete answer, and 3 indicating a correct answer.
Give the rationale before rating. Provide only one rating.
THIS IS VERY IMPORTANT:
A binary question should only be answered with 'yes' or 'no',
otherwise the candidate answer is incorrect."""
demonstrations = [
{
"question": "What's the weather like?",
"reference_answer": ["sunny", "clear", "bright", "sunny", "sunny"],
"generated_answer": "cloudy"
}
]
評分函式
給定 LLM 為測試示例生成的文字,我們從最後一個字元(1、2 或 3)中提取評分,並將其對映到 [0, 1] 範圍內的分數:[ s = \frac{r - 1}{2} ]
結果表
我們的評估結果總結如下表
指標 | CIDER | BLEU | ANLS | LAVE |
---|---|---|---|---|
分數 | 0.1411 | 0.0032 | 0.002 | 0.58 |
定性示例

圖 4:Llama 對 Docmatix 測試子集中生成和參考答案的評分和理由。

圖 5:Llama 對 Docmatix 測試子集中生成和參考答案的評分和理由。
我們對 VQA 系統的評估是否過於嚴格,以及我們是否需要微調?
當我們使用 LLM 評估響應時,準確率提高了大約 50%,這表明即使答案不嚴格遵守格式,它們也可能是正確的。這表明我們當前的評估指標可能過於嚴格。需要注意的是,這並非一篇全面的研究論文,需要更多的消融研究才能充分理解不同指標在合成數據集零樣本效能評估中的有效性。我們希望這項工作能作為一個起點,拓寬當前對改進合成數據集背景下零樣本視覺語言模型評估的研究重點,並探索除提示學習之外的更有效方法。
參考文獻
@inproceedings{cascante2022simvqa,
title={Simvqa: Exploring simulated environments for visual question answering},
author={Cascante-Bonilla, Paola and Wu, Hui and Wang, Letao and Feris, Rogerio S and Ordonez, Vicente},
booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition},
pages={5056--5066},
year={2022}
}
@article{hu2024mplug,
title={mplug-docowl 1.5: Unified structure learning for ocr-free document understanding},
author={Hu, Anwen and Xu, Haiyang and Ye, Jiabo and Yan, Ming and Zhang, Liang and Zhang, Bo and Li, Chen and Zhang, Ji and Jin, Qin and Huang, Fei and others},
journal={arXiv preprint arXiv:2403.12895},
year={2024}
}
@article{agrawal2022reassessing,
title={Reassessing evaluation practices in visual question answering: A case study on out-of-distribution generalization},
author={Agrawal, Aishwarya and Kaji{\'c}, Ivana and Bugliarello, Emanuele and Davoodi, Elnaz and Gergely, Anita and Blunsom, Phil and Nematzadeh, Aida},
journal={arXiv preprint arXiv:2205.12191},
year={2022}
}
@inproceedings{li2023blip,
title={Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models},
author={Li, Junnan and Li, Dongxu and Savarese, Silvio and Hoi, Steven},
booktitle={International conference on machine learning},
pages={19730--19742},
year={2023},
organization={PMLR}
}
@inproceedings{manas2024improving,
title={Improving automatic vqa evaluation using large language models},
author={Ma{\~n}as, Oscar and Krojer, Benno and Agrawal, Aishwarya},
booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
volume={38},
number={5},
pages={4171--4179},
year={2024}
}
@article{li2023scigraphqa,
title={Scigraphqa: A large-scale synthetic multi-turn question-answering dataset for scientific graphs},
author={Li, Shengzhi and Tajbakhsh, Nima},
journal={arXiv preprint arXiv:2308.03349},
year={2023}
}