阿拉伯語排行榜:引入阿拉伯語指令遵循,更新AraGen等等

釋出於2025年4月8日
在 GitHub 上更新

在Inception,我們一直致力於加強阿拉伯語語境下的AI模型評估。此前,我們推出了**AraGen**,這是首批生成式阿拉伯語排行榜之一,作為評估阿拉伯語大型語言模型(LLM)生成任務的基準。

作為我們持續努力的一部分,我們很高興分享以下更新:

  • **阿拉伯語排行榜空間**,與**穆罕默德·本·扎耶德人工智慧大學(MBZUAI)**合作推出,旨在將阿拉伯語AI評估整合到一個地方。該平臺目前支援**AraGen-03-25**和**阿拉伯語指令遵循**,並計劃擴充套件到涵蓋各種模態的阿拉伯語AI模型排行榜。
  • **AraGen 03-25版本**,包含改進和更新的基準。
  • **指令遵循排行榜**,由**阿拉伯語 IFEval 基準**提供支援,這是首個公開可用的用於評估阿拉伯語指令遵循能力的基準。

以下部分提供了這些更新的詳細資訊。

阿拉伯語排行榜空間

**阿拉伯語排行榜**是一個全面統一的阿拉伯語評估和任務空間。它旨在作為涵蓋各種模態模型評估的中心樞紐。目前,它擁有AraGen-03-25和阿拉伯語指令遵循兩個即時排行榜。我們計劃將該空間擴充套件到更多的阿拉伯語AI模型排行榜和任務,涵蓋各種模態。

我們邀請有興趣的貢獻者透過社群選項卡或直接透過電子郵件與我們聯絡,討論如何將他們的工作/排行榜作為附加選項卡整合到此空間中。

AraGen排行榜的最新更新

2024年12月,我們推出了AraGen基準作為AraGen排行榜的基礎。該排行榜的一個關鍵特點是其動態性,評估資料集將保持私有(盲測)三個月,以確保公平和公正的評估。秉持相同的理念,我們正在公開發布**AraGen-12-24基準**,以及所有由**Claude-3.5-Sonnet**根據**3C3H準則**評估的模型響應。

透過分享此基準和模型響應,我們旨在鼓勵社群對其進行審查,發現我們可能遺漏的任何意外行為,並幫助我們完善評估框架。

AraGen-03-25版本

在最新的AraGen版本中,我們將資料集從之前的279對問題和答案擴充套件到340對。分佈情況相對相似:

  • **問答:** 約200對
  • **推理:** 70對
  • **安全問題:** 40對
  • **正字法和語法分析:** 30對

這種分配反映了問答作為任何語言模型/聊天機器人/AI助手主要用例的首要關注點,同時仍然解決了其他評估領域,特別是考慮到在阿拉伯語語法和正字法中生成具有挑戰性的查詢的複雜性。

Tasks Distribution (%)

此外,我們還完善了**評判系統提示**,以提高畫質晰度,即使對於較小/較弱的評判模型也是如此。

動態評估與排名分析

在引入動態評估週期時,保持基準和評估流程的一致性和可靠性至關重要。為確保這一點,我們分析了前10個模型在不同資料集版本和系統提示配置下的排名變化。

排名變化分析

我們分析了模型在兩種評估場景下的表現:

  • 使用最新AraGen版本(**AraGen-03-25**)比較了之前的系統提示(SP1)與當前的系統提示(SP2)。
  • 評估了更新資料集和評判系統提示的影響。

總體排名保持穩定,表現最佳的模型(*o1-2024-12-17*)始終保持領先地位。值得注意的是,我們觀察到兩個Claude模型之間排名互換,這凸顯了我們評估方法的敏感性,特別是考慮到它們最初得分接近。

排名唯一顯著的變化是*gpt-4o-2024-08-06*模型,其效能在更新資料集和提示後顯著提高。這種突然的跳躍目前正在我們持續的基準設計研究中進行調查。

僅由於系統提示的變化,未發生重大排名波動,這表明只要使用相同的評判模型(*claude-3.5-sonnet*),就能保持良好的可重複性。然而,我們預計使用更小或更弱的模型作為評判時可能會出現潛在的波動,在這種情況下,採用第二個系統提示(SP2)可能會增強一致性。

總而言之,*o1-2024-12-17*模型在更具挑戰性的更新基準下,其得分從82.67%降至70.25%,但其穩健且持續領先的表現繼續強化了其在阿拉伯語應用中的可靠性。儘管評估流程的最新更新引入了輕微的排名變動,但整體框架保持穩定,頂部和底部表現者位置一致。許多觀察到的排名調整可能反映了由於微小分數差異造成的典型評估誤差範圍。值得注意的是,排名第二至第五的模型的得分,此前介於70%-78%之間,現在介於51%-57%之間。這突顯了更新後的AraGen資料集提出了一個顯著更困難的基準,與推理模型的持續進步保持一致。儘管絕對分數發生了這些變化,但排行榜位置基本保持一致,這令人鼓舞,突顯了未來評估方法的穩健性。

更詳細的分數
組合1:系統提示效果(AraGen-03-25 SP1 vs. AraGen-03-25 SP2)

表1. AraGen-03-25(SP1)排名

排序 模型名稱 3C3H分數 正確性 完整性 簡潔性 幫助性 誠實性 無害性
1 o1-2024-12-17 69.49% 74.90% 73.04% 47.11% 72.40% 74.56% 74.90%
2 gpt-4o-2024-08-06 56.10% 61.96% 58.92% 34.22% 58.80% 60.81% 61.89%
3 claude-3-5-sonnet-20241022 54.29% 59.31% 57.65% 34.31% 57.13% 58.01% 59.31%
4 claude-3-7-sonnet-20250219 53.21% 59.31% 56.76% 28.53% 56.86% 58.53% 59.24%
5 o3-mini-2025-01-31 51.65% 56.67% 54.31% 31.74% 54.46% 56.10% 56.59%
6 deepseek-chat 47.82% 54.31% 52.35% 20.56% 51.94% 53.46% 54.31%
7 claude-3-5-haiku-20241022 43.62% 48.14% 44.61% 28.92% 45.37% 46.57% 48.14%
8 o1-mini-2024-09-12 43.60% 47.55% 47.06% 26.54% 46.35% 46.57% 47.55%
9 Qwen/Qwen2.5-72B-Instruct 42.18% 48.63% 47.55% 16.03% 44.93% 47.38% 48.55%
10 gpt-4o-mini-2024-07-18 40.96% 45.10% 44.02% 24.24% 43.19% 44.14% 45.10%

表2. AraGen-03-25(SP2)排名

排序 模型名稱 3C3H分數 正確性 完整性 簡潔性 幫助性 誠實性 無害性
1 o1-2024-12-17 70.25% 75.88% 70.98% 51.25% 72.55% 75.25% 75.59%
2 gpt-4o-2024-08-06 57.38% 63.14% 56.67% 39.95% 59.66% 61.79% 63.06%
3 claude-3-7-sonnet-20250219 56.54% 62.25% 58.53% 34.49% 60.39% 61.40% 62.18%
4 claude-3-5-sonnet-20241022 55.60% 60.49% 56.67% 39.14% 58.60% 58.50% 60.20%
5 o3-mini-2025-01-31 51.63% 56.08% 52.35% 36.72% 53.53% 55.10% 56.00%
6 deepseek-chat 51.00% 57.55% 53.92% 25.61% 54.95% 56.42% 57.55%
7 claude-3-5-haiku-20241022 44.79% 48.92% 44.51% 32.40% 46.67% 47.38% 48.85%
8 o1-mini-2024-09-12 43.78% 47.55% 46.76% 28.04% 46.27% 46.67% 47.40%
9 Qwen/Qwen2.5-72B-Instruct 43.09% 48.82% 47.55% 19.73% 46.59% 47.11% 48.75%
10 gpt-4o-mini-2024-07-18 40.62% 45.10% 40.88% 27.60% 42.06% 43.58% 44.51%
組合2:資料集和提示更新效果(AraGen-12-24 SP1(舊)vs. AraGen-03-25 SP2(新))

表3. AraGen-12-24(SP1)排名

排序 模型名稱 3C3H分數 正確性 完整性 簡潔性 幫助性 誠實性 無害性
1 o1-2024-12-17 82.67% 92.71% 92.47% 34.65% 91.19% 92.26% 92.71%
2 claude-3-5-sonnet-20241022 78.74% 88.31% 87.81% 33.27% 86.97% 87.78% 88.31%
3 claude-3-7-sonnet-20250219 77.71% 87.89% 87.77% 29.20% 86.27% 87.26% 87.89%
4 gpt-4o-2024-08-06 73.89% 83.75% 82.91% 28.94% 80.99% 83.00% 83.75%
5 deepseek-chat 71.28% 81.89% 81.89% 21.13% 79.53% 81.32% 81.89%
6 o3-mini-2025-01-31 70.91% 80.29% 79.21% 27.33% 78.38% 79.99% 80.29%
7 claude-3-5-haiku-20241022 66.40% 74.43% 73.36% 30.56% 72.34% 73.30% 74.43%
8 o1-mini-2024-09-12 64.95% 74.22% 74.22% 21.46% 72.24% 73.32% 74.22%
9 gpt-4o-mini-2024-07-18 63.40% 72.10% 71.38% 22.98% 70.41% 71.41% 72.10%
10 Qwen/Qwen2.5-72B-Instruct 62.58% 71.92% 71.80% 19.06% 69.86% 70.94% 71.92%

表4. AraGen-03-25(SP2)排名

排序 模型名稱 3C3H分數 正確性 完整性 簡潔性 幫助性 誠實性 無害性
1 o1-2024-12-17 70.25% 75.88% 70.98% 51.25% 72.55% 75.25% 75.59%
2 gpt-4o-2024-08-06 57.38% 63.14% 56.67% 39.95% 59.66% 61.79% 63.06%
3 claude-3-7-sonnet-20250219 56.54% 62.25% 58.53% 34.49% 60.39% 61.40% 62.18%
4 claude-3-5-sonnet-20241022 55.60% 60.49% 56.67% 39.14% 58.60% 58.50% 60.20%
5 o3-mini-2025-01-31 51.63% 56.08% 52.35% 36.72% 53.53% 55.10% 56.00%
6 deepseek-chat 51.00% 57.55% 53.92% 25.61% 54.95% 56.42% 57.55%
7 claude-3-5-haiku-20241022 44.79% 48.92% 44.51% 32.40% 46.67% 47.38% 48.85%
8 o1-mini-2024-09-12 43.78% 47.55% 46.76% 28.04% 46.27% 46.67% 47.40%
9 Qwen/Qwen2.5-72B-Instruct 43.09% 48.82% 47.55% 19.73% 46.59% 47.11% 48.75%
10 gpt-4o-mini-2024-07-18 40.62% 45.10% 40.88% 27.60% 42.06% 43.58% 44.51%

3C3H分析

作為我們12月釋出的一部分,我們引入了3C3H作為評估模型聊天能力的新衡量標準,旨在評估大型語言模型(LLM)答案的事實性和可用性。在過去的三個月裡,我們觀察到了一些有趣的發現,我們將在本節中分享。

一個新興的趨勢是,各個維度之間幾乎完美相關。在大多數情況下,正確答案被評為高度有用且無害,但大多數模型未能保持這種與簡潔性維度的相關性。這通常反映了我們當前訓練這些模型的方式,即更冗長的答案通常被認為更有幫助。這一趨勢最近引起了研究界的關注,例如OpenAI釋出了GPT-4.5模型。根據其用例部分,GPT-4.5的答案比GPT-4更簡潔,同時仍然同樣有用。

HeatMap for o1-2024-12-17

本次分析中脫穎而出的模型是“silma-ai/SILMA-9B-Instruct-v1.0”,與其他開放權重模型(即使是更大的模型)相比,它表現出更高的簡潔性得分。然而,與它的基礎模型“google/gemma-2-9b-it”相比,這種簡潔性的提高是以犧牲實用性和其他維度為代價的。我們相信,這種分析以及對3C3H的最佳化,將使社群能夠透過精心策劃的資料集開發出更好的模型,同時保持所有維度之間的相關性。

SILMA-9B-Instruct-v1.0 VS Gemma-2-9b-it HeatMaps

這是一項持續的努力,旨在更好地理解這些維度如何相互關聯,以及各種場景和訓練配方如何影響這種關係。下面,我們提供了一個空間,您可以為您選擇的任何模型組合生成熱圖。我們希望社群發現它有助於發現我們可能沒有注意到的其他趨勢。最終,我們希望這個工具能促進更多關於評估和3C3H的討論,並作為他人工作的資源。

我們認為這項分析的一個侷限性是歸零規則,即如果答案不正確,我們不會評估其他維度。未來,我們計劃進一步研究,即使答案不正確,它是否仍然有用,以及如果答案不正確,簡潔性和無害性等維度如何納入此評估。

指令遵循排行榜

什麼是指令遵循基準?

大型語言模型(LLM)的核心能力之一是理解和遵循人類指令。這項技能對於構建可靠的聊天機器人、虛擬助手和能夠按照使用者要求行事的AI系統至關重要。如果缺乏強大的指令遵循能力,模型可能會生成正確的資訊,但格式錯誤、忽略使用者指定的約束或生成不必要的內容。指令遵循基準是衡量模型指令依從性並公平比較模型以推動改進的標準化、客觀方式。

資料集:阿拉伯語 IFEval

我們的工作靈感來自IFEval資料集。IFEval最初由Google推出,提供了一個結構化的基準,旨在評估LLM遵循可驗證指令的能力。它包含帶有特定、客觀可衡量命令的提示,例如“使用三個專案符號”、“包含‘創新’一詞兩次”或“將答案限制在100字以內”。英語IFEval資料集包含約500個提示,涵蓋25種不同型別的此類可驗證指令。IFEval中的評估透過Python函式自動驗證指令是否得到遵循,從而避免了對人工評估器或另一個AI評判的需求。這使得評估**可復現且無偏見**。雖然IFEval已成為評估LLM英語響應的標準,但阿拉伯語仍缺乏類似詳細和結構化的資源。

我們的**阿拉伯語IFEval**資料集的構建始於仔細改編約300個來自原始英語IFEval的提示。這並非簡單的逐字翻譯;相反,我們深思熟慮地調整了提示,以清晰地反映阿拉伯語的語言細微差別和文化語境。在阿拉伯語中意義不大的指令,例如涉及英語特定母音限制的指令,要麼被改編成等效的阿拉伯語語言挑戰,要麼被完全省略。特定於英語語境的文化參考被替換為具有文化關聯性或阿拉伯語等效的參考,以保持語境清晰度。此外,我們從頭開始建立了獨特的阿拉伯語特定樣本,專門設計用於強調獨特的阿拉伯語語音、正字法特徵和形態,例如仔細使用變音符號(tashkīl),避免某些字母的語音限制(例如,在不使用字母Alef (ا)的情況下書寫),以及利用基於詞根的形態來挑戰模型的詞彙選擇能力。所有提示都經過阿拉伯語語言學家和領域專家的嚴格驗證,他們確保了每條指令的語法準確性、文化適宜性和明確性。

**阿拉伯語 IFEval**資料集向研究社群公開提供,以供使用、測試和貢獻。它可在Huggingface的inceptionai/Arabic_IFEval上獲取。

樣本一:阿拉伯語 IFEval

提示 (阿拉伯語)
فسر كيف يمكن للتقنيات الحديثة مثل الذكاء الاصطناعي أن تسهم في الحفاظ على الأدب العربي، مع تضمين 12 كلمة تنتهي بأحد الحروف الرافسة (د، ذ، أ، ر، ز، و)، وأن تكون الإجابة مكتوبة بأسلوب موجز لا يتجاوز 120 كلمة. يجب أن لا تحتوي إجابتك على أي فواصل。

**提示翻譯(英文):** 解釋現代技術,如人工智慧,如何有助於保護阿拉伯文學。你的答案應包含至少12個以特定阿拉伯字母(د、ذ、أ、ر、ز、و)之一結尾的單詞,應簡潔,且不超過120個單詞。你的回答不得包含任何逗號。

遵循的指令

  • **字母頻率限制:** 包含至少12個以字母(د、ذ、أ、ر、ز、و)之一結尾的單詞。
  • **標點符號限制:** 不使用逗號。
  • **長度限制:** 簡潔書寫,不超過120字。

JSON 格式示例

{
  "key": 4767,
  "prompt": "فسر كيف يمكن للتقنيات الحديثة مثل الذكاء الاصطناعي أن تسهم في الحفاظ على الأدب العربي، مع تضمين 12 كلمة تنتهي بأحد الحروف الرافسة (د، ذ، أ، ر، ز، و)، وأن تكون الإجابة مكتوبة بأسلوب موجز لا يتجاوز 120 كلمة. يجب أن لا تحتوي إجابتك على أي فواصل.",
  "instruction_id_list": [
    "keywords:letter_list_freq",
    "punctuation:no_comma",
    "length_constraints:number_words"
  ],
  "kwargs": [
    {
      "letters": ["د", "ذ", "أ", "ر", "ز", "و"],
      "frequency": 12,
      "relation": "at least",
      "position": "end"
    },
    {},
    {
      "relation": "less than",
      "num_words": 500
    }
  ],
  "lang": ["ar"]
}
樣本二:阿拉伯語 IFEval

提示 (阿拉伯語): اكتب قصة قصيرة عن الرقم 600، على أن يكتب الرقم في القصة بالكلمات وبكل الصيغ المفقطة الممكنة له على الأقل مرة (ستة مائة - ست مئة - ستمئة - ستمائة).

提示翻譯(英文)
寫一個關於數字600的短篇故事。在故事中,數字應至少一次以所有可能的阿拉伯語書寫形式拼寫出來("ستة مائة", "ست مئة", "ستمئة", "ستمائة")。

遵循的指令
你的回答必須明確包含以下阿拉伯語拼寫,每種至少一次

  • ستة
  • مائة
  • ست
  • مئة
  • ستمئة
  • ستمائة

JSON 格式示例

{
  "key": 4768,
  "prompt": "اكتب قصة قصيرة عن الرقم 600، على أن يكتب الرقم في القصة بالكلمات وبكل الصيغ المفقطة الممكنة له على الأقل مرة (ستة مائة - ست مئة - ستمئة - ستمائة).",
  "instruction_id_list": [
    "keywords:frequency",
    "keywords:frequency",
    "keywords:frequency",
    "keywords:frequency",
    "keywords:frequency",
    "keywords:frequency"
  ],
  "kwargs": [
    {"relation": "at least", "keyword": "ستة", "frequency": 1},
    {"relation": "at least", "keyword": "مائة", "frequency": 1},
    {"relation": "at least", "keyword": "ست", "frequency": 1},
    {"relation": "at least", "keyword": "مئة", "frequency": 1},
    {"relation": "at least", "keyword": "ستمئة", "frequency": 1},
    {"relation": "at least", "keyword": "ستمائة", "frequency": 1}
  ],
  "lang": ["ar"]
}

評估方法與指標

為了評估這些模型,我們採用了結合顯式和隱式評估技術的綜合方法。顯式評估涉及使用自動化指令碼來評估指令是否嚴格遵循,重點關注正確格式和特定詞語使用等要素。隱式評估則處理更細微的語言期望,例如保持預期的響應語言和避免重複模式。

此外,我們利用了Google在IFEval框架中引入的評分指標,並將這些指標應用於提示級別和指令級別的粒度。這些指標均使用嚴格的準確性標準進行衡量,要求遵循所提供的指令。提示級別得分明顯更難,它反映了使用者的觀點,即“我是否得到了我請求的一切?”如果一個提示包含多個要求,未能滿足任何一個要求都意味著使用者的請求未完全滿足。相比之下,指令級別得分則更寬鬆,允許我們評估部分依從性。

在我們的分析中,我們將強調提示級別的嚴格準確性,因為它提供了對模型指令遵循能力最嚴格的評估。

結果與分析

我們在一系列廣泛的LLM上進行了評估,包括英語IFEval基準和我們新推出的阿拉伯語IFEval。這涵蓋了閉源模型(如OpenAI的GPT系列和Anthropic的Claude模型)以及開源替代品(包括Jais系列、Meta的LLaMA-2變體和各種開放雙語模型)。下面,我們總結了這些模型中具有代表性的子集的結果,比較了它們在英語和阿拉伯語IFEval上提示級別的準確性。準確性以嚴格和寬鬆標準報告,數值表示成功完成提示的百分比。

指令遵循排行榜示例

表5. 指令遵循基準樣本分數

排序 模型名稱 阿拉伯語提示級別 (%) 英語提示級別 (%)
1 claude-3.5-sonnet 72.5 84.7
2 gpt-4o-2024-08-06 70.8 79.4
3 gpt-4o-mini-2024-07-18 68.1 76.9
4 claude-3.5-haiku 67.1 78.2
5 Qwen/Qwen2.5-72B-Instruct 67.3 83.5
6 Qwen/Qwen2.5-32B-Instruct 60.4 77.6
7 google/gemma-2-27b-it 59.4 76.1
8 CohereForAI/aya-expanse-32b 56.7 65.1
9 CohereForAI/c4ai-command-r7b-12-2024 56.4 74.9
10 meta-llama/Llama-3.3-70B-Instruct 58.2 88.2

即將開展的工作

作為我們工作的一部分,隨著我們內部工作的進展,我們將不斷向阿拉伯語排行榜空間新增和更新更多的排行榜。在即將釋出的版本中,我們預計將釋出一個多工視覺問答排行榜,該排行榜將由我們與MBZUAI的合作者提供的camel-bench和kitab提供支援。

社群

文章易於理解。感謝您的努力。

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.