CinePile 2.0 - 透過對抗式最佳化打造更強的資料集

釋出於 2024 年 10 月 23 日
在 GitHub 上更新

在這篇博文中,我們將分享釋出 CinePile 2.0 的歷程,這是我們長影片問答 (QA) 資料集的顯著改進版本。新資料集的改進依賴於一種我們稱之為“對抗式資料集最佳化”的新方法。

我們很高興能分享 CinePile 2.0 和我們的對抗式最佳化方法的實現,我們相信這種方法可以加強許多現有資料集,並直接成為未來資料集建立流程的一部分。

Advesarial Refinement Pipeline

如果您主要對對抗式最佳化方法感興趣,可以直接跳轉到“對抗式最佳化”部分

等等,CinePile 是什麼?

2024 年 5 月,我們釋出了 CinePile,一個包含約 30 萬個訓練樣本和 5000 個測試樣本的長影片問答資料集。

第一個版本在兩個方面脫穎而出:

  • 問題多樣性:涵蓋時間理解、情節分析、角色動態、場景和主題。
  • 問題難度:在我們的基準測試中,人類的表現比最好的商業視覺模型高出 25%,比開源模型高出 65%。

檢視資料樣本

其背後的秘密武器之一是,它依賴於 YouTube 上的電影片段,以及從專為視障觀眾設計的精確音訊描述中提煉出的問答對。這些描述提供了超出基本視覺資訊(例如,“這輛車是什麼顏色的?”)的豐富上下文,幫助我們建立更復雜的問題。

Sample Scene

告訴我更多細節。你們是如何構建原始資料集的?

為了自動化問題建立過程,我們首先透過研究現有的資料集(如 MovieQA 和 TVQA)來構建問題模板。我們使用文字相似度模型 WhereIsAI/UAE-Large-V1 對這些資料集中的問題進行聚類,然後用每個聚類中的 10 個隨機示例來提示 GPT-4,為每個類別生成問題模板和典型問題。

類別 問題模板 典型問題
角色與關係動態 (CRD) 人際動態 在共同經歷或行動之後,A 和 B 之間的關係發生了什麼變化?
角色與關係動態 (CRD) 決策理由 角色給出什麼理由來解釋他們的決定?
敘事與情節分析 (NPA) 危機事件 什麼重大事件導致了角色的極端行為?
敘事與情節分析 (NPA) 揭開謎團 角色 A 揭示了關於事件 B 的什麼秘密?
場景與技術分析 (STA) 個人物品 [角色姓名] 手裡拿著什麼?
場景與技術分析 (STA) 環境細節 在 [特定時間/地點/事件] [期間/時刻],[場景/地點] 是什麼樣的?
時間 (TEMP) 關鍵的時間敏感行動 [角色] 必須迅速做什麼,否則會有什麼後果?
時間 (Temp) 頻率 一個角色嘗試 [行動 A] 多少次?
主題探索 (TH) 象徵與主題追蹤 場景 A 中引入的任何符號或主題是否在場景 B 中再次出現或演變,它們象徵著什麼?
主題探索 (TH) 主題平行 場景中的混亂與電影的哪些主題相呼應?

由於模板並非總是適用於每個電影片段,我們使用 Gemini 1.0 Pro 為每個場景選擇最合適的模板。接著,我們向一個語言模型輸入場景的文字、選定的模板名稱(例如“個人物品”)、示例問題和一個系統提示,以建立針對特定場景的問題。一個精心設計的提示有助於模型關注整個場景,生成更有深度的問題,同時避免淺顯的問題。我們發現:

  • 提供典型示例併為對話和視覺描述新增時間戳可以防止 GPT-4 產生幻覺。
  • 這種方法能生成更合理的多項選擇題 (MCQ) 干擾項。
  • 要求模型為其答案提供理由可以提高問題質量。

使用這種方法,我們為每個影片生成大約 32 個問題。在釋出 CinePile 之前,我們實施了幾種機制來確保資料集/基準的質量,我們將在下一節中介紹。

檢查初步結果的質量

雖然我們的流程通常能生成格式良好、可回答的問題,但有些問題結果很簡單,或者依賴於不需要觀看影片片段的基本概念。為了解決這個問題,我們使用了幾個大型語言模型 (LLM) 來識別和過濾三種類型的問題:

  1. 退化問題

    • 如果一個問題的答案從問題本身就很明顯(例如,“粉紅色的房子是什麼顏色的?”),那麼它被認為是“退化”的。
    • 這類問題只佔我們資料集的一小部分。
    • 由於在我們的規模下手動審查不可行,我們採用了三個 LLM——Gemini、GPT-3.5 和 Phi-1.5——進行自動化檢測。
    • 如果所有三個模型在沒有任何上下文的情況下都能正確回答,那麼這些問題將從評估集中排除。
  2. 視覺依賴問題

    • 一些多項選擇題可以僅透過對話來回答,而不需要視覺資訊。
    • 我們使用 Gemini 模型來判斷問題是否可以僅透過對話來回答。
    • 問題會得到一個二元分數:0 表示無需視覺資訊即可回答,1 表示需要視覺資訊。
  3. 難度評估

    • 為了評估問題難度,我們測試了模型在獲得完整上下文(視覺描述和字幕)的情況下是否能正確回答。

透過我們團隊和更廣泛社群對基準的持續使用,我們確定了幾個需要改進的領域,這促使我們考慮推出 CinePile 2.0。

CinePile 2.0

在 CinePile 的第二個版本中,我們與 Hugging Face 合作(繼他們在 CinePile 上成功微調 Video Llava 7B 的實驗之後),確定並優先考慮了幾個改進領域。

CinePile 1.0 中的問題

雖然 CinePile 1.0 中的退化問題過濾很有用,但它有幾個侷限性:

  • 有些問題僅使用問答對就能回答,而不需要轉錄文字或視覺內容。
  • 許多被標記的問題包含了來自影片的有價值的見解——與其丟棄它們,不如重新措辭以更好地體現其價值。
  • 退化檢查僅限於測試集:對於 CinePile 1.0 的訓練集,執行多個模型——尤其是專有模型——成本太高。

為了解決這些問題,我們引入了一個新的_對抗式最佳化_流程,幫助改進弱問題而不是簡單地丟棄它們。這種方法可以更容易地大規模應用。在本文中,我們將把識別退化問題(僅使用問題和答案選項,沒有視覺或對話資訊)的模型稱為“盲聾 LLM”。

對抗式最佳化

Advesarial Refinement Pipeline

_對抗式最佳化_流程旨在修改問題或答案,直到盲聾 LLM 無法輕易預測正確答案。其工作原理如下:

  1. 盲聾 LLM 提供一個答案和一份解釋,說明其僅根據問題做出的選擇。
  2. 這些解釋有助於識別問題中嵌入的隱含線索或偏見。
  3. 我們的問題生成模型使用這些解釋來修改問題和/或答案選項,以消除隱含線索。
  4. 這個過程對每個問題最多重複五次,直到盲聾 LLM 的表現下降到隨機猜測的水平。
Generated to Refined QA Example

考慮到這個迭代過程的計算需求,我們需要一個強大但易於獲取的 LLM,可以在本地執行,以避免 API 使用限制、延遲和雲服務成本。我們選擇了:

  • LLaMA 3.1 70B (開源模型) 作為盲聾 LLM
  • GPT-4 用於生成問題修改

為了考慮隨機機會,我們:

  • 測試了答案選項順序的所有五種排列。
  • 如果模型在五次嘗試中有三次回答正確,則將問題標記為退化。

對抗式最佳化的結果

簡而言之,在 CinePile 中執行對抗式最佳化的影響如下:

  • 成功修改了測試集中 90.24% 的退化問答對
  • 手動審查了無法修復的問答對(約 800 箇中的 80 個)
    • 儘可能進行修改
    • 否則從評估集中排除
  • 修正了訓練集中 90.94% 的弱問答對
    • 保留了無法修復的問答對,因為它們不會對效能產生負面影響

實現

在這次釋出中,我們同時公佈了我們的對抗式最佳化流程和用於識別弱問題的程式碼。完整的實現,包括所有提示,都可以在我們的公共倉庫中找到。

評估

在對之前評估過的模型和 16 個新的影片-LLM 在修改後的測試集上進行測試後,我們在下圖中突出了表現最佳的模型。以下是結果顯示的內容:

  • Gemini 1.5 Pro 在商業視覺語言模型 (VLM) 中領先

    • 在“場景與技術分析”方面尤其出色
    • 在關於電影環境和角色互動的視覺驅動問題上表現最佳
  • 基於 GPT 的模型表現出有競爭力的效能

    • 在“敘事與情節分析”方面表現強勁
    • 在關於故事情節和角色互動的問題上表現良好
  • Gemini 1.5 Flash,Gemini 1.5 Pro 的輕量版

    • 總體準確率達到 58.75%
    • 在“場景與技術分析”方面表現尤其出色

Model Evaluations

開源模型

從 CinePile 的第一個版本到當前版本,開源影片-LLM 社群取得了顯著進展。以下是我們的發現:

  • LLaVa-One Vision 領先於開源模型

    • 準確率達到 49.34%
    • 與 CinePile 1.0 的最佳表現者(Video LLaVA,22.51%)相比有顯著提升
  • 較小模型表現出有競爭力的效能

    • LLaVa-OV(7B 引數)
    • MiniCPM-V 2.6(8B 引數)
    • 兩者均優於 InternVL2(26B 引數)
  • 還有改進空間

    • 幾乎所有模型在困難分割上的準確率都下降了 15-20%
    • 表明還有很大的改進空間

困難分割

CinePile 中的困難分割結果清楚地表明,當前模型在理解視覺敘事和故事元素方面仍遠遠落後於人類能力。這一差距凸顯了 CinePile 新版本作為衡量更復雜視覺理解進展的基準的價值。

Model Evaluations

排行榜

我們推出了一個新的CinePile 排行榜,隨著新模型的出現,它將持續更新。請訪問該空間瞭解如何提交您自己的模型進行評估。

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.