開放阿拉伯語大模型排行榜 2
阿拉伯語大模型排行榜的現狀
支援阿拉伯語的大模型(無論是單語還是多語模型)日益增多,促使社群建立了專門的阿拉伯語排行榜。此前,專注於阿拉伯語的排行榜通常侷限於特定作者推出的狹窄基準,通常作為其工作的演示。在這些情況下,作者會設定排行榜來展示模型在特定任務或資料集上的表現。另外,其他排行榜則要求使用者在自己的計算資源上執行評估,然後提交包含其結果的 JSON 檔案以供顯示。
雖然這些方法有助於激發對阿拉伯語基準測試的初步興趣,但它們也帶來了一些挑戰:
- 資源限制:許多社群成員無法獲得評估所有可用開源模型所需的龐大計算資源,以便確定哪個模型最適合其下游專案或應用,被迫僅依賴模型開發者在其文件中分享的結果,而這些結果很多時候不允許直接比較。這種時間和計算能力上的高成本可能成為進一步開發阿拉伯語大模型的主要障礙,因此排行榜成為一個寶貴的共享資源。
- 報告結果的完整性:由於一些平臺要求使用者獨立評估其模型,然後簡單地提交一個分數檔案,因此缺乏確保這些結果準確甚至是透過真實評估產生的健全機制。這種缺乏集中驗證的情況可能會損害排行榜的可信度和公平性。
這些限制凸顯了對一個更統一、更易訪問、更透明的基準測試平臺的需求——一個不僅能夠而且鼓勵整個阿拉伯語自然語言處理社群進行真實且可復現實驗的平臺。為了解決這些問題,2024年5月,2A2I、TII和HuggingFace推出了第一個版本的開放阿拉伯語大模型排行榜 - OALL [1],其中包含14個基準測試,涵蓋閱讀理解、情感分析和問答等廣泛任務。
2024年9月,沙特資料與人工智慧管理局(SDAIA)與阿卜杜拉國王全球阿拉伯語學院合作推出了Balsam Index,該指數包含約1400個數據集,涵蓋67個任務,共50000個問題,例如語法糾正、釋義、因果分類和文字理解等。
同年12月5日,Inception 和 MBZUAI 宣佈推出AraGen 排行榜,這是第一個用於阿拉伯語的生成任務排行榜,引入了 3C3H 評估指標,該指標使用帶有私有測試的動態評估週期,並提供了一個原生阿拉伯語且具有文化意識的生成任務資料集 AraGen Bench,用於評估大模型在四個主要任務中的表現。
為了圓滿結束這一年,2024年12月19日,Scale 的安全、評估和對齊實驗室(SEAL)釋出了一個阿拉伯語排行榜,作為其多語言排行榜的一部分。這個排行榜所依據的基準測試始終是私有的,就像其所有其他語言的排行榜一樣,它依賴於人類偏好評估,使用包含1000個阿拉伯語提示的資料集,旨在提高聊天機器人在複雜和文化微妙對話中的互動能力。
前一個排行榜的影響
在釋出不到7個月後,第一版開放阿拉伯語大模型排行榜迅速成為阿拉伯語AI社群的重要平臺,上個月(2025年1月)吸引了超過46,000名訪問者和2,000多次訪問。HuggingFace空間獲得了超過100個點贊和Google Scholar上的8次引用。社群提交了700多個模型,引數從1B到70B以上不等。提交的模型來自超過180個獨立組織,使其成為最活躍的大模型評估排行榜之一。自發布以來,該排行榜在社交媒體、HuggingFace、Reddit等平臺上引發了大量熱烈討論,使其成為迄今為止最著名的阿拉伯語排行榜。
如圖1所示,在提交到排行榜初始版本的約700個模型中,大部分是聊天和微調模型,佔比超過70%,而預訓練模型僅佔11%。在模型大小方面,超過50%的模型小於7B引數。
與其他語言的排行榜相比,如圖2所示,開放阿拉伯語大模型排行榜是其中最活躍的排行榜之一,緊隨韓語、波蘭語和葡萄牙語排行榜之後,所有這些排行榜均在釋出不到一年內。考慮到阿拉伯語是全球使用人數最多的語言之一,但網際網路上可用的內容相對有限,這些數字與其他語言相比更具重要意義。
為什麼需要一個新的排行榜?
最近社群內的討論,包括對開放阿拉伯語大模型排行榜(OALL)和類似倡議的批評,突顯了當前基準測試實踐中的關鍵缺陷 [2]。許多研究人員、開發人員和語言愛好者都強調,需要更直接地評估阿拉伯語特定任務,提高基準測試建立的透明度,並納入更多樣化的資料集,以反映阿拉伯語方言、領域和實際應用的廣度。這些見解在塑造更新後的排行榜中發揮了核心作用。
阿拉伯語具有獨特的挑戰和特點,需要超越一般自然語言處理任務的專門評估。這包括複雜的語法、豐富而複雜的形態、口語方言的多樣性以及文化上細緻入微的安全相關考量。一個能解決這些因素的排行榜可以更清晰地反映模型在真實阿拉伯語語言環境中的表現。
在 OALL 的第一次迭代中,很大一部分資料集和任務源自非阿拉伯語環境。當這些任務適應阿拉伯語時,它們往往無法反映實際用例或滿足阿拉伯語社群的實際需求。許多工是英語的直接翻譯,這經常引入語言和上下文不匹配。這種方法忽略了阿拉伯語獨特的形態和句法複雜性,使得這些任務在衡量真正的語言理解和建模能力方面效果不佳。
此外,OALL 第一版中的一些基準測試隨著時間的推移變得效果不佳,因為模型獲得了近乎完美的分數,限制了它們區分增量改進的能力。作為回應,新排行榜取代了這些飽和的基準測試,引入了一套更相關、更最新的評估任務。
為了彌補這些差距,新的排行榜包含了本地開發於阿拉伯語的任務。這些任務旨在捕捉語言的獨特特徵——例如其豐富的形態、微妙的語法和特定於上下文的用法——這些元素在基於翻譯的基準測試中經常丟失。這種轉變確保了評估更真實,並與阿拉伯語使用的實際情況更好地對齊。
此外,我們在主要任務之一AlGhafa中發現了一個“靜默”錯誤,它無意中影響了模型排名。問題源於答案選項檢查方式的不匹配——任務不是驗證其索引,而是根據選項本身評估響應。雖然這並非完全不正確,但它對小型/弱模型的影響尤為顯著。一些模型的分數下降了多達20分,而較強的模型則相對不受影響。這個問題損害了評估的一致性、公平性和統一性。
此版本有什麼新功能?
在改革排行榜時,我們遵循兩個指導原則:移除飽和和機器翻譯任務,因為它們固有的質量較低且可能存在文化偏見;新增新近可用的高質量原生或人工整理基準,以增加評估的覆蓋範圍。
從開放阿拉伯語大模型排行榜(OALL)的第一版中,我們保留了以下基準資料集:
- AlGhafa 基準 [3]:從 TII 釋出的原始基準中,我們只保留了原生阿拉伯語資料集,即人工整理的 Facts-Balanced、SOCAL、XGLUE、Sentiment、Sentiment-Rating、Sentiment-Rating-No-Neutral 版本,以及來自 Meta 的 Belebele [4] 的兩個阿拉伯語任務(阿拉伯語-MSA 和阿拉伯語-方言),最後是阿拉伯語 EXAMS 基準 [5]。
我們透過新增以下去年釋出的資料集來豐富排行榜:
- 原生阿拉伯語 MMLU [6]:MBZUAI 釋出的一個原生阿拉伯語基準,靈感來源於原始英語 MMLU 資料集;包含 40 個任務和近 15,000 個現代標準阿拉伯語(MSA)多項選擇題,來源於學校考試。
- 人工翻譯 MMLU(MMLU-HT)[7]:Inception 在 JAIS 專案中整理的原始英語 MMLU 資料集的人工翻譯版本,包含 57 個任務,由 MBZUAI HF 組織釋出。
- MedinaQA:由MBZUAI釋出,旨在促進更多原生阿拉伯語基準的採用。該資料集側重於通用阿拉伯語語言和語法方面。
- AraTrust [8]:一個包含 522 個人工編寫的多項選擇題的資料集,涵蓋了與安全性和真實性相關的不同方面。
最後,我們推出了 ALRAGE 基準測試:阿拉伯語語言檢索增強生成評估。它引入了一個全面的框架,用於評估大型語言模型在阿拉伯語中的檢索增強生成能力。該基準測試基於一個精心策劃的資料集,該資料集來源於40本涵蓋藝術與文學到技術與創新等各種主題的阿拉伯語書籍,使用 meta-llama/Meta-Llama-3.1-70B 進行合成生成,並透過與 Argilla 合作的社群衝刺由原生阿拉伯語使用者進行驗證。資料集結構包括問題、真實答案、透過 BAAI/bge-m3 嵌入模型檢索到的候選上下文以及目標候選索引,所有這些都旨在真實模擬阿拉伯語中的實際 RAG 場景。
ALRAGE 的創新之處在於其評估方法,該方法在 lighteval 框架內實現了大模型作為裁判的度量。系統使用 Qwen2.5-72B-Instruct 作為裁判模型,透過結構化的阿拉伯語提示將模型的輸出與標準答案進行比較,從而評估生成的響應。評估採用細緻入微的 0-10 分評分標準,評估答案的準確性、相關性和質量,並將分數標準化為 0-1 範圍。這種透過自定義 JudgeMetricWrapper 類實現的技術實現,為評估阿拉伯語生成提供了一個嚴謹、可復現的方法,同時保持了對阿拉伯語語言細微差別的敏感性,有效地解決了阿拉伯語自然語言處理中對複雜評估指標的關鍵需求。
表1總結了排行榜第一版保留的資料集以及第二版引入的新資料集。
OALL v1保留的資料集 | OALL v2新增的資料集 |
AlGhafa(6個任務) | 原生阿拉伯語 MMLU(40個任務) |
EXAMS | 人工翻譯MMLU(57個任務) |
Belebele(2個任務) | MedinaQA |
AraTrust | |
ALRAGE |
除了新增和刪除資料集,我們還修復了與使用者介面及其過濾器相關的多個問題,並引入了聊天模板。在使用者提交方面,現在每個組織每週的提交數量限制為5個。此限制旨在限制排行榜的使用,併為不同組織提供評估其模型的機會。請注意,對於OALL團隊提交到v2的模型,如果在配置中找到聊天模板,則將其用於評估。否則,聊天模板將停用。
v1 和 v2 的結果
為了評估開放阿拉伯語大模型排行榜第二次迭代的影響,我們對兩個版本進行了一系列統計比較。
圖3顯示了版本1和版本2在六個基準測試中的效能得分。值得注意的是,ACVA 和 Toxigen 在不同模型尺寸下表現出飽和效應。版本1中的 Alghafa 飽和度較低,我們推測這是由於同時包含了原生和翻譯的阿拉伯語基準。相比之下,AraTrust、ALRAGE 和 Alghafa 在 v2 中的模型效能與模型尺寸的關係更加分散。
為了檢驗OALL與其他阿拉伯語大模型排行榜之間的相關性,我們比較了五款開放阿拉伯語大模型:google/gemma-2-27b-it、CohereForAI/aya-23-35B、CohereForAI/aya-expanse-32b、inceptionai/jais-adapted-70b-chat 和 meta-llama/Llama-3.3-70B-Instruct 在三個排行榜上的相對排名:OALL v2、SEAL Arabic 和 AraGen。如圖4所示,排行榜之間存在顯著相關性,Llama3.3-70-instruct 模型在OALL v2和AraGen上均排名第一,在SEAL上排名第三。*需要澄清的是,AraGen 目前僅包含 inceptionai/jais-adapted-70b-chat 的分數,而阿拉伯語SEAL排行榜僅包含 Jais Adapted 70B,因此推測是預訓練模型。由於我們無法完全解決此差異,我們決定在OALL v2上評估 inceptionai/jais-adapted-70b-chat 以進行此比較。
為了進一步探討OALL兩個版本之間的差異,我們在圖5中展示了兩個類別中的頂尖模型:預訓練模型和聊天模型。對於提交到OALL v1的模型,Qwen2.5 在所有類別中,尤其是預訓練模型中,都確立了其強大的阿拉伯語基線地位。在OALL v2中,Qwen模型也主導了預訓練模型類別,然而 Qwen/Qwen2-72B 模型超越了 Qwen/Qwen2.5-72B 成為最佳預訓練/持續預訓練模型,而 Llama3.3-70B-instruct 則成為所有類別的領先者,效能超越了calme-2.1-qwen2.5-72b。總體而言,v2中一些模型的排名有所變化,而另一些則保持不變。我們將這些變化歸因於兩個關鍵因素:首先,模型在阿拉伯語原生基準、安全性和可信度方面的穩健性;其次,OALL v1中評估了700多個模型,而v2中評估了80個模型,其中包括一些v1中可能不存在的新模型。我們預計社群將會在排行榜釋出後繼續做出貢獻,擴充套件排行榜。
最後,我們分析了 AceGPT 和 Jais 兩個模型家族在 OALL v1 和 v2 上的平均得分。如圖6所示,兩個版本中的趨勢是一致的:大型模型往往獲得更高的平均得分,但 inceptionai/jais-family-30b-8k 除外,它在 OALL v2 上超越了更大的 inceptionai/jais-adapted-70b 模型。總體而言,v2 的平均得分高於 v1,除了兩個家族中的 7B 模型。我們推測這種差異是由於較小的模型在 ALRAGE 上的效能較低,因為這是一個生成任務,通常對大型模型更有利。
結論和未來工作
在這篇部落格文章中,我們介紹了開放阿拉伯語大模型排行榜的第二版。我們分析了現有的阿拉伯語排行榜以及 OALL 的第一版,指出了特定基準飽和等問題,這些問題在第二版中已移除。我們還移除了機器翻譯的基準,只保留了阿拉伯語原生和人工翻譯的基準。最後,我們引入了新的基準,如 Aratrust、MadinaQA、原生 MMLU、人工翻譯 MMLU(MMLU-HT)和 ALRAGE。我們的目標是為社群提供一個客觀的阿拉伯語大模型評估,幫助理解每個提交模型的優勢和劣勢。
展望未來,我們希望能看到更多阿拉伯語基準的釋出,尤其是在數學、推理、幻覺以及通用和領域特定基準等領域。
致謝
作者要感謝穆罕默德·本·扎耶德人工智慧大學(MBZUAI)提供了本版本中使用的一些新原生基準,包括新的 MMLU-HT 資料集。我們還要感謝 TII 慷慨贊助評估後端所需的推理硬體。我們還要感謝 Hugging Face 的朋友們持續的支援,並且在需要時總是 🤗。感謝所有致力於語言和任務評估和排行榜的人們。最後,我們感謝社群對 OALL 第一版的參與和寶貴反饋。期待在排行榜上看到更多模型 🚀。
引用
@misc{OALL2,
author = {El Filali, Ali and ALOUI, Manel and Husaain, Tarique and Alzubaidi, Ahmed and Boussaha, Basma El Amel and Cojocaru, Ruxandra and Fourrier, Clémentine and Habib, Nathan and Hacid, Hakim},
title = {The Open Arabic LLM Leaderboard 2},
year = {2025},
publisher = {OALL},
howpublished = {https://huggingface.co/spaces/OALL/Open-Arabic-LLM-Leaderboard}
}
參考文獻
- [1] 推出開放阿拉伯語大模型排行榜(El Filali 等,2024)
- [2] CamelEval:推進文化對齊的阿拉伯語語言模型和基準 (Qian et al., 2024)
- [3] AlGhafa 阿拉伯語語言模型評估基準 (Almazrouei et al., ArabicNLP 2023)
- [4] Belebele 基準:122 種語言變體的並行閱讀理解資料集 (Bandarkar et al., ACL, 2023)
- [5] {EXAMS}:用於跨語言和多語言問答的多學科高中考試資料集 (Hardalov et al., EMNLP, 2023)
- [6] ArabicMMLU: 評估阿拉伯語大規模多工語言理解 (Koto et al., ACL, 2024)
- [7] Jais and jais-chat:以阿拉伯語為中心的預訓練和指令微調開放生成式大型語言模型(Sengupta 等人,2023)
- [8] AraTrust:阿拉伯語大模型信任度評估 (Alghamdi et al., 2024)
- [9] LightEval:一個輕量級大模型評估框架(Fourrier 等人,2023)