深入探索 Aya Expanse:推進多語言前沿
這是 Cohere For AI 團隊的客座部落格文章。Cohere For AI 是 Cohere 的研究實驗室,致力於解決複雜的機器學習問題。
隨著 Aya Expanse 系列的釋出,其中包括 8B 和 32B 引數模型,我們正在解決人工智慧領域最緊迫的挑戰之一:缺乏高效能的多語言模型,使其能夠與單語言模型的能力相媲美。儘管人工智慧取得了巨大進步,但模型在多種語言之間的效能仍然存在顯著差距。Aya Expanse 是 C4AI 幾年專注研究的成果——資料套利、多語言偏好訓練、安全微調和模型合併。
這些綜合突破帶來了多語言領域新的最先進效能。我們使用一系列評估來評估我們的模型,其中包括 Arena-Hard-Auto 資料集(論文),並將其翻譯成我們釋出供他人使用的 23 種語言。在成對比較中,Aya Expanse 32B 的表現優於 Gemma 2 27B、Mistral 8x22B 和 Llama 3.1 70B(一個引數量是其兩倍多的模型),為多語言效能樹立了新的行業標準。我們還發布了 Aya Expanse 8B,其效能優於其引數類別中的領先開源模型,如 Gemma 2 9B、Llama 3.1 8B 和最新發布的 Ministral 8B,勝率從 60.4% 到 70.6% 不等。我們在難度較低的評估中觀察到更大的收益。
我們將這兩個模型作為開源權重發布給研究社群,希望能進一步加速多語言研究進展。在這篇部落格文章中,我們分享了訓練管道中每個關鍵演算法元件背後的技術細節。
避免合成數據中的模型崩潰
合成數據——由專家或“教師”模型生成的資料,用於訓練另一個模型——已成為大型語言模型(LLM)開發中日益重要的組成部分,特別是在模型訓練耗盡現有資料來源的情況下。然而,對於多語言資料,尤其是低資源語言,很少有好的教師模型示例,這給利用合成數據帶來了額外的挑戰。此外,最近的研究表明,過度依賴合成數據會導致模型崩潰。
在我們最近的工作中,我們證明這些限制可以透過“資料套利”(從一組教師模型中策略性地取樣)來解決。這種方法具有重要意義,因為它挑戰了傳統上對單個教師模型生成合成資料的依賴。相反,*資料套利*利用了模型池之間的效能差異。儘管此技術適用於任何領域,但它特別適用於多語言環境,因為缺乏在所有語言中都表現出色的普遍有效教師模型帶來了重大挑戰。在建立高質量合成多語言資料集時,*多語言套利*透過利用多樣化的模型池策略性地取樣資料分佈的不同部分,從而改進多語言生成。
我們首先針對各語言組訓練一個模型池,然後使用一個*仲裁器*來評估並選擇最佳生成結果。這裡的仲裁器是一個內部獎勵模型(RM),用於對模型生成的結果進行評分。在基於獎勵的路由中,對於給定語言的每個提示,我們從模型池中的所有模型生成補全,並使用獎勵模型對其進行評分。得分最高的補全被選為該提示的最終補全。我們的 8B 模型,即使在透過多語言套利訓練的 SFT 階段,其勝率相對於 Gemma 2 9B 也有超過 9.1% 的提升,與之前的 Aya 23 模型相比,這表明了這種方法在利用不同語言的各種模型優勢方面的有效性。
透過全域性偏好迭代改進
在監督微調之後,與人類偏好對齊是訓練當今最先進 LLM 的關鍵一步。儘管被廣泛採用,但眾所周知,偏好訓練在單語言設定中已經具有挑戰性。在多語言設定中最大化偏好訓練的收益帶來了更多挑戰。絕大多數現有偏好資料集都是純英文的,而少數現有多語言偏好資料集通常質量不高。此外,已知同時建模多種不同語言是一個困難的最佳化問題,其中簡單地最佳化某些語言的效能通常會導致其他語言的效能下降。
在《LHF 能說多種語言:解鎖大型語言模型的多語言偏好最佳化》中,我們利用一種新穎的合成數據生成技術來構建高質量的多語言偏好資料對,方法是將高效能多語言 LLM 的語內補全與由較弱模型生成的、從英語翻譯而來的低質量補全進行對比。這使得我們的模型避免生成通常包含不良人工製品(例如翻譯不佳引入的人工製品)的低質量多語言補全。我們表明,這種方法在所有語言中都帶來了實質性的效能提升,並且通常也為未包含在偏好訓練資料中的語言帶來了提升。
儘管這項工作還表明,使用線上資料進行偏好訓練優於其離線變體,但在 Aya Expanse 的訓練過程中,我們發現先使用離線資料進行偏好訓練,然後使用線上資料進行偏好訓練的組合優於單獨的線上或離線訓練。在第一個偏好訓練階段,我們使用仲裁階段中獎勵最高和最低的響應作為選定和拒絕的補全來訓練資料,這使得 DPO 訓練的第一個階段是*離線*的。
在離線偏好訓練之後,我們進行*線上*迭代 DPO,我們從上次迭代訓練的模型中對每個提示進行多次線上生成,使用獎勵模型對這些生成進行排名,然後進一步訓練這些偏好對。對於這兩個模型,我們重複這個過程 3 次迭代,因為我們發現超過 3 次迭代只會帶來微小的收益,而代價是額外的重新調整引數(如正則化係數 (beta)),有時還會引入獎勵作弊行為。總體而言,對於 Aya Expanse 8B,在經過仲裁訓練的模型基礎上,離線和線上偏好訓練的結合,使得其與 Gemma 2 9B 相比,勝率額外增加了 7.1%。
透過模型合併最大化效能
在任何後期訓練(以及預訓練)流水線中,無論是單階段(如 SFT)還是更復雜的多階段最佳化流水線(如我們上述的流水線),選擇正確的資料混合都是一個反覆出現的問題。這個過程的複雜性需要投入大量精力來微調超引數和資料組合。合併多個模型是一種替代方法,可以以更低的總體計算成本實現複雜的多工處理。在 Aya Expanse 中,我們直接基於我們最近的研究論文《混合資料還是合併模型?最佳化多樣化多工學習》的發現,並在套利階段和偏好訓練的每次迭代中應用合併。
在訓練多個獨立模型並旨在合併時,最大化檢查點之間的多樣性非常重要。然而,這應該與確保池中每個獨立模型都達到高效能相平衡。為了平衡這些目標,我們透過訓練針對不同語系的模型來最大化檢查點之間的多樣性。這利用了跨語言遷移,該遷移通常能提供顯著的效能優勢,同時確保語言差異在檢查點之間提供足夠的區分度。
直觀地看,可以為每種語言單獨訓練一個模型然後進行合併,但這並不能達到我們從跨語言遷移中觀察到的相同優勢。為了提高合併的魯棒性,我們在每個叢集中包含了一些共享語言(這裡是英語、西班牙語和法語)。在最終的方案中,我們使用了多個階段的合併執行,這些執行在不同的資料叢集以及同一執行中的檢查點上進行訓練。
除了加權線性平均外,我們還嘗試了多種合併技術,即 SLERP、TIES-merging 和 DARE-TIES。然而,我們發現加權平均是最一致的方法。因此,我們在整個流水線中都使用了加權平均。有趣的是,我們觀察到在 35B 規模下的合併收益遠大於 8B 規模——高達 3 倍。這與最近的研究一致,後者表明合併在更大規模下更有效。
融會貫通
這些圖表展示了我們的端到端後期訓練流程,從而帶來了前面討論的逐步提升。回顧 Aya 模型系列從 Aya 101 和 Aya Collection 問世之初就突破了開源協作的界限,到現在結合了關鍵開放基礎研究問題的穩步進展,為多語言效能樹立了新標準,這確實令人感到特別。
致謝
這項工作離不開 Aya Expanse 核心團隊:Madeline Smith、Marzieh Fadaee、Ahmet Üstün、Beyza Ermis、Sara Hooker、John Dang、Shivalika Singh、Arash Ahmadian、Daniel D'souza、Alejandro Salamanca、Aidan Peppin、Arielle Bailey、Meor Amer、Sungjin Hong、Manoj Govindassamy、Sandra Kublik。
同樣,如果沒有更廣泛的 Cohere For AI 和 Cohere 團隊,這項工作也無法完成。特別感謝 Acyr Locatelli、Adrien Morisot、Jon Ander Campos、Sara Elsharkawy、Eddie Kim、Julia Kreutzer、Nick Frosst、Aidan Gomez、Ivan Zhang。
還要特別感謝我們的研究社群——來自世界各地的 220 位語言大使,他們參與了此次釋出。感謝 Sree Harsha Nelaturu、Bhavnick Minhas、Christopher Klamm、Isabella Bicalho Frazeto,他們貢獻的筆記本可在模型 Hugging Face 卡片上獲取。
特別感謝 Hugging Face 幫助促成這一切:Omar Sanseviero、Pedro Cuenca、Vaibhav Srivastav、Lysandre Debut、Aritra Roy Gosthipaty。
參考文獻
- 多語言套利:最佳化資料池以加速多語言發展
- RLHF 能說多種語言:解鎖大型語言模型的多語言偏好最佳化
- 迴歸基礎:重新審視 REINFORCE 風格最佳化以從大型語言模型的人類反饋中學習
- 當 AI 模型用遞迴生成的資料進行訓練時會崩潰
- 混合資料還是合併模型?最佳化多樣化多工學習
- Aya 23:開源權重發布以進一步推進多語言發展
- Aya 模型:一種指令微調的開放訪問多語言語言模型
- Aya 資料集:多語言指令微調的開放訪問集合
- 從眾包資料到高質量基準:Arena-Hard 和 BenchBuilder 流水線
- 從人類反饋中進行強化學習的開放問題和基本侷限性
- 英語重要嗎?激發大型語言模型的跨語言能力
- 用四元數曲線製作旋轉動畫
- Ties-merging:合併模型時解決干擾。
- 語言模型是超級馬里奧:從同源模型中吸收能力作為免費午餐
- 大規模模型合併的關鍵因素是什麼?