深入探究 Aya Vision:推進多語言多模態前沿
隨著 Aya Vision 系列(我們新的 8B 和 32B 引數視覺-語言模型(VLM))的釋出,我們正在解決人工智慧領域最大的挑戰之一:將多語言效能引入多模態模型。
Aya Vision 是 Cohere For AI 最新的開源多語言多模態模型系列,旨在為跨 23 種語言的語言和視覺理解提供強大的基礎。它建立在 Aya Expanse(最先進的多語言語言模型)的成功基礎上,並結合先進技術對其進行了擴充套件。這些技術包括合成註釋、透過翻譯和改寫擴充套件多語言資料,以及多模態模型融合——這些都是在多語言環境中改進語言和視覺理解的關鍵方法。
因此,我們的模型在各種任務中表現出色,包括影像字幕、視覺問答、文字生成以及將文字和影像翻譯成清晰自然的語言文字。我們在一組資料集上評估了 Aya Vision 模型,包括我們新的開放式視覺-語言基準測試 AyaVisionBench,以及 Wild Vision Bench 的多語言版本(mWildVision),該版本被翻譯成 23 種語言,我們將其全部發布供研究使用。
在配對比較中,Aya Vision 32B 的勝率超過了其兩倍大小的模型,例如 Llama-3.2 90B Vision、Molmo 72B 和 Qwen2.5-VL 72B,在 AyaVisionBench 上的勝率範圍為 50% 到 64%,在 mWildVision 上平均跨 23 種語言的勝率範圍為 52% 到 72%。
我們緊湊高效的 Aya Vision 8B 模型在其引數類別中實現了多語言多模態的最佳效能,在 AyaVisionBench 上勝率高達 79%,在 mWildBench 上勝率高達 81%,超越了 Qwen2.5-VL 7B、Pixtral 12B、Gemini Flash 1.5 8B、Llama-3.2 11B Vision、Molmo-D 7B 和 Pangea 7B 等領先模型。
我們釋出了 8B 和 32B 模型作為開源權重,供研究社群進一步加速多語言多模態的進展。在這篇博文中,我們分享了 Aya Vision 模型背後的關鍵技術細節。
Aya Vision 架構與訓練
對於高效能的視覺-語言模型,處理任意解析度的影像,尤其是高解析度影像,非常重要。為了讓 Aya Vision 具備此能力,我們動態調整大小並將任意高解析度影像分割成多個塊,以從影像編碼器生成豐富的影像特徵。在 Aya Vision 模型中,我們使用最近釋出的 SigLIP2-patch14-384 模型作為視覺編碼器的初始化。
雖然動態調整大小可以處理高解析度影像,但它也導致透過視覺-語言聯結器和 LLM 解碼器的影像標記數量增加。為了提高延遲和吞吐量,我們使用了一種名為 Pixel Shuffle 的下采樣方法,將影像標記的數量壓縮 4 倍。下采樣後,影像標記透過視覺-語言聯結器與語言模型輸入嵌入對齊,並傳遞給 LLM 解碼器。
對於文字解碼器,我們使用我們的多語言語言模型。對於 Aya Vision 8B,我們使用一個從 Cohere Command R7B 初始化的 LLM,以改進指令遵循和世界知識,並使用包含多樣化多語言資料、模型合併和偏好訓練的 Aya Expanse 配方進行進一步的後訓練。對於 Aya Vision 32B,我們根據其最先進的多語言效能,從 Aya Expanse 32B 初始化語言模型。
訓練過程
我們分兩個階段訓練了 Aya Vision 模型——視覺-語言對齊和監督微調 (SFT)。在視覺-語言對齊階段,只訓練視覺-語言聯結器,而視覺編碼器和語言模型權重保持凍結。這透過將影像編碼器特徵對映到語言模型嵌入空間,實現了基本的視覺-語言理解。在 SFT 階段,我們在 23 種語言的多種多模態任務上訓練聯結器和語言模型。
多模態資料增強與語言覆蓋擴充套件
開發多語言視覺-語言模型面臨的最大挑戰之一是確保在代表性不足的語言中也能實現強大效能。為解決這個問題,我們首先使用各種高質量的英語資料集收集合成註釋,這為我們的多語言多模態註釋奠定了基礎。在對英語資料集進行合成註釋後,我們將大量資料翻譯成 23 種語言。為了避免翻譯偽影並保持答案中流暢且高精度的文字特性,我們隨後透過將翻譯後的提示/生成對與原始高質量合成樣本進行匹配來重新措辭,從而在實際資料集稀缺的情況下擴充套件語言覆蓋範圍。這既提高了語言流暢性,也改進了視覺和文字之間的對齊,使 Aya Vision 能夠在多種語言中展現卓越的影像理解能力。
我們的 8B 模型在僅使用原始學術資料集進行監督微調時,在 AyaVisionBench 上與多語言 VLM Pangea 7B 相比,在 23 種語言中達到 40.9% 的勝率,而合成註釋和多語言資料擴充套件使勝率達到 58.1%,提高了 17.2%。這一顯著的改進表明了對多語言資料覆蓋的大量投入所產生的影響。
多模態模型融合
一個最先進的視覺-語言模型不僅應在影像理解方面表現出色,還應在會話語境中表現出色,即模型應能對影像和文字輸入生成高質量的響應。為解決此問題,受我們之前模型融合研究的啟發(一種結合多個訓練模型的技),我們融合了基礎語言模型和微調後的視覺-語言模型。
模型融合增強了我們最終模型的生成能力,使得在 AyaVisionBench 上,AyaVision 模型的勝率在 23 種語言中達到 70%,與融合前的模型相比,多模態勝率提高了 11.9%。
多模態模型融合還使我們的 Aya Vision 模型在 mArenaHard 資料集上的純文字任務中表現出色,優於其他領先的視覺-語言模型。
擴充套件至 32B
最後,我們將我們的模型從 8B 擴充套件到 32B,從而產生了最先進的開源多語言視覺-語言模型——Aya Vision 32B,由於文字骨幹的更強初始化,其勝率顯著提高,並且在 AyaVisionBench 上以 49% 到 63% 的勝率,以及在 mWildVision 上平均跨 23 種語言以 52% 到 72% 的勝率,超越了其兩倍大小的模型,例如 Llama-3.2 90B Vision、Molmo 72B 和 Qwen2.5-VL 72B。
Aya Vision 基準測試——多語言評估資料
除了 Aya Vision 模型,我們還發布了一個高質量的多語言視覺-語言基準測試資料集 AyaVisionBench,該資料集基於實際應用構建,涵蓋 23 種語言和 9 個不同的任務類別,每種語言包含 135 對影像-問題。
我們將這個評估集提供給研究社群,以推動多語言多模態評估的進展。該資料集旨在評估模型執行多種視覺-語言任務的能力,包括影像字幕、圖表理解、識別兩幅影像之間的差異、通用視覺問答、OCR、文件理解、文字轉錄、涉及邏輯和數學的推理,以及將螢幕截圖轉換為程式碼。透過整合多種語言和任務型別,該資料集為評估跨語言和多模態理解提供了一個廣泛且具有挑戰性的評估框架。
為了建立這個資料集,我們首先從 Cauldron 留存測試集中選擇影像,這是一個由 50 個高質量資料集組成的大型集合,確保它們在訓練期間從未出現過。對於每張影像,我們隨後生成了一個相應的問,明確要求視覺上下文才能回答。這些問題是合成生成的,並透過兩階段驗證過程進行完善。首先,人工標註員審查並驗證每個問題,以確保其清晰、相關且確實依賴於影像。這種嚴格的選擇和驗證過程確保該資料集可以作為在多語言和現實世界環境中評估視覺-語言模型的穩健基準。
專為實際應用設計
溝通以多種形式和多種語言進行。憑藉我們領先的研究和開發,我們釋出了一個模型,今天可以在 23 種不同的語言中促進文字或視覺形式的連線。
Aya Vision 具有廣泛的實際應用,其中一個顯著的例子是它在 WhatsApp 上的可用性,WhatsApp 是世界上使用最廣泛的通訊平臺之一。這使得全球大量使用多種語言的公民能夠在他們每天使用的平臺上利用 Aya Vision 的功能。
Aya 入門
開始使用
從 Hugging Face 上的 Aya Vision 系列下載權重和資料集。
使用我們的 Hugging Face Space 試用 Aya Vision 或在 Whatsapp 上向其傳送文字
使用我們的 colab 示例構建 Aya。
瞭解更多關於我們正在進行的多語言工作。
致謝
這項工作離不開 Aya Vision 核心技術團隊的努力:
Saurabh Dash、Oliver Nan、John Dang、Arash Ahmadian Dehkordi、Shivalika Singh、Alejandro Salamanca、Bharat Venkitesh、Vlad Shmyhlo、Walter Beller-Morales、Jeremy Pekmez、Jason Ozuzu、Madeline Smith、Marzieh Fadaee、Manoj Govindassamy、Sudip Roy、Matthias Gallé、Beyza Ermis、Ahmet Üstün、Sara Hooker。
這項工作也離不開更廣泛的 Cohere For AI 和 Cohere 團隊在許多不同方面的支援。特別感謝 Sungjin Hong、Michael Kozakov、Pierre Richemond、Brittawnya Prince、Jim Payne、Kyle Lastovica、Jeff Colen、Jenna Cook、Viraat Aryabumi、Trent Fowler、Linus Chui、Meor Amer、Lucas Fayoux、Kyle Lastovica、Billy Trend、Acyr Locatelli、Morgan Norman、Florian Strub、Jon Ander Campos、Nick Frosst、Phil Blunsom、Aidan Gomez、Ivan Zhang。
特別感謝 Hugging Face 在促成這項工作方面的幫助:Yoni Gozlan、Arthur Zucker、Pedro Cuenca、Aritra Roy Gosthipaty、Merve Noyan、Vaibhav Srivastav。
參考文獻
[1] Aya Expanse: Combining Research Breakthroughs for a New Multilingual Frontier
[2] Pangea: A Fully Open Multilingual Multimodal LLM for 39 Languages
[3] WildVision: Evaluating Vision-Language Models in the Wild with Human Preferences
[4] SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features
[5] What matters when building vision-language models?
[6] Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models
[7] How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites