🇨🇿 BenCzechMark - 你的LLM能理解捷克語嗎?

釋出於 2024 年 10 月 1 日
在 GitHub 上更新

🇨🇿 BenCzechMark 是首個也是最全面的評估套件,用於評估大型語言模型 (LLM) 在捷克語中的能力。它旨在測試 LLM 在以下方面的表現:

  • 用捷克語進行推理並執行復雜任務。
  • 生成並驗證語法和語義正確的捷克語。
  • 透過回答有關捷克文化和捷克相關事實的問題,提取資訊並存儲知識。
  • 完成語言模型最初訓練的目標——估計捷克語文字的機率。

為實現這一目標,我們收集了跨越 9 個類別的 50 項任務,其中 90% 的任務內容是原生的、非翻譯的。

在這篇部落格中,我們介紹了評估套件本身以及 BenCzechMark 排行榜,榜上囊括了超過 25 個不同規模的開源模型!

📋 任務和類別

🇨🇿 BenCzechMark(當前版本)分為 9 個類別,以全面評估 LLM 的能力。對於每個任務,

  • 我們手動設計了至少 5 個提示,並記錄了不同提示下的最佳效能和效能差異。
  • 我們區分了 4 種類型的任務,併為它們關聯了相應的指標:
    • 準確率 (Acc) 用於衡量多項選擇 (MC) 任務,
    • 完全匹配 (EM) 用於衡量開放式簡答生成任務,
    • 受試者工作特徵曲線下面積 (AUROC,在多類別設定中計算為一對多(one-vs-all)的平均值) 用於衡量分類任務的效能,無需進行閾值校準。開箱即用的語言模型通常會受到訓練資料中類別分佈、提示結構以及推理過程中提供的示例的影響。這些偏差在不同模型之間可能存在差異,導致預測結果因具體模型及其影響因素而變得不一致。為了確保在不同類別分佈的資料集上做出可靠的決策,需要進行校準以調整模型的預測。然而,透過使用像 AUROC 這樣不依賴閾值的指標(它關注的是排序而非決策閾值),可以完全避免校準。這種方法透過消除校準的需要,實現了更公平的模型比較(更多關於 LLM 校準的細節,請參見例如 Zhaeo 等人,2021)。
    • 詞級困惑度 (Ppl) 與語言建模任務相關。它量化了模型生成文字的可能性,並按語料庫中的詞數進行歸一化。

資料集中翻譯的部分(佔總數的 10%)主要透過 CUBBITT LINDAT 翻譯完成,但 CsFever 除外,其作者使用了 DeepL 進行翻譯。

以下是完整的類別列表,以及使用的資料集和指標:

  1. 閱讀理解 測試系統是否能根據上下文中提供的資訊提取問題的答案。
    • Belebele - Acc - 包含有關手動翻譯的網頁文章的問題。
    • SQAD3.2 - EM - 是一項成熟的 SQuAD 格式閱讀理解任務,源自維基百科。
  2. 事實知識 包含測試模型中儲存的事實知識的問題。
    • Umimeto (5 個任務,側重於生物/化學/歷史/資訊學/物理) - Acc - 來自相應主題的小學和高中問題。源自 umimeto.org
    • TriviaQA - EM (使用 CUBITT 翻譯) - 包含來自知識問答和智力競賽網站的問答(以美國為中心的資料集)。
    • NaturalQuestions - EM (使用 CUBITT 翻譯) - 包含來自谷歌搜尋的問答(以美國為中心的資料集)。我們引入這些是為了確保模型在用捷克語提示時(即,在可能的領域轉換後)沒有忘記任何以英語為中心的知識。
  3. 捷克語理解 針對捷克語中句法結構和細微含義的特殊理解。
    • CERMAT (開放/判斷/多選) - EM/AUROC/Acc - 側重於理解任務,源自小學六年級、九年級以及州立高中考試的開放式、判斷題和多項選擇題。
    • 語法錯誤檢測 - AUC (判斷語法錯誤的真/假任務) - 包含來自語言學習者作文的句子。
    • Agree - Acc - 要求填寫過去時動詞缺失的語法字尾。
  4. 語言建模 測試模型對特定捷克語樣本進行取樣的可能性。
    • 捷克國家語料庫 - Ppl - 包括 7 個任務,涵蓋口語、方言、歷史以及其他版本的捷克語,源自 ČNK
    • HellaSwag - Acc - (使用 CUBITT 翻譯) 要求從 4 個選項中選擇文字的合理續寫。
  5. 捷克語數學推理 量化模型處理和解決捷克語數學作業的能力。
    • Klokan QA - Acc - 來自捷克數學競賽的小學/高中問題。
    • CERMAT - EM/Acc - CERMAT 開放式/多選題的數學部分。
    • Umimeto (數學) - Acc - Umimeto 的數學部分。
  6. 自然語言推斷 測試文字是否包含相關文字對中所需的資訊。
    • Czech SNLI - AUROC (使用 CUBITT 翻譯 SNLI + 手動校對) - 測試前提文字中是否蘊含假設。
    • CSFever - AUROC (捷克語版的 FEVER 資料集,使用部分翻譯) - 詢問宣告是否(至少部分)得到證據的支援。
    • CTKFacts - AUROC - 格式與 CSFEVER 相同,但手動從捷克新聞社的文章中獲取。
    • Propaganda - AUROC - 包含 13 個任務,預測新聞文章的各個方面,如地點、型別和情感主題。
  7. 命名實體識別 確定模型是否能識別文字中不同型別的命名實體。
    • CNEC2.0 - EM - 捷克語的標準 NER 資料集。
    • Court Decisions - EM - 源自捷克最高法院/憲法法院判決的 NER。
  8. 情感分析 量化模型估計文字中情感資訊的能力。
    • Subjectivity - AUROC - 詢問一段文字是主觀的還是客觀的。
    • CzechSentiment (MALL/CSFD/FB) - AUROC - 對產品評論、電影評論和 Facebook 評論的情感分析。
  9. 文件檢索 專注於識別相關文件。
    • Historical IR - Acc - 用於選擇與查詢相關/不相關的段落的多項選擇任務。

⚔️ 模型對決和平均分

由於我們對不同任務使用不同的指標,簡單的平均由於尺度不同而行不通。因此,我們引入了一種新穎的方法來確定最終得分:我們讓模型進行對決!

對於每項任務和指標,我們都在 α=0.05 的水平上進行統計顯著性檢驗。這意味著模型 A 的效能等於模型 B 的效能的機率估計小於 0.05。我們使用以下檢驗方法,每種方法的統計功效各不相同:

  • ACC 和 EM:單尾配對 t 檢驗,
  • AUROC:受 Goutte 等人,2005 啟發的貝葉斯檢驗,
  • Ppl:自助法 (bootstrapping)。

然後我們計算一個模型的*對決獲勝分 (DWS)* - 即在該任務上,對所有其他模型獲勝的對決比例。最後,我們按如下方式計算總分:

  • 類別 DWS:類別內各任務得分的平均值,
  • 平均 DWS:跨類別 DWS 的平均值。

這樣就得到了一個易於理解的模型得分:宏平均模型勝率!

👑 BenCzechMark 排行榜 - Llama-405B 奪冠

為了在我們的套件中找出表現最佳的開源模型,我們使用以下引數評估了 26 個開放權重模型:

  • 最大輸入長度:2048 個詞元
  • 少樣本示例:3 個
  • 截斷:智慧截斷(首先截斷少樣本示例,然後截斷任務描述)
  • 對數機率聚合:平均池化(有助於減輕長文件偏見)
  • 聊天模板:未使用

結果可以在我們的 空間 中檢視。雖然 Llama-450B 是明顯的總冠軍,但它並沒有在所有類別中都佔據主導地位。有趣的是,一些模型在特定領域表現出色——例如:

  • Qwen-72B 在數學和資訊檢索方面表現出色,但在其他類別中落後於類似規模的模型。
  • Aya-23-35B 模型在情感和語言建模方面表現優異,但在不同類別中同樣落後。
  • Gemma-2 9B 在捷克語閱讀理解方面取得了優異的成績,超過了許多更大的模型。

🇨🇿 認為你的模型能在捷克語上表現出色嗎?提交它!

我們在 BenCzechMark 的主要目標之一是賦能研究人員評估其模型在捷克語中的能力,並鼓勵社群訓練和發現能夠在捷克語中表現出色的模型。

如果您知道某個模型表現突出,我們非常希望您能將其提交到我們的排行榜,讓競爭更加激烈!

為了幫助您開始,我們準備了一個簡單的三步指南,您可以在 BenCzechMark 空間的提交選項卡下找到它。

🌟 致謝

我們要感謝來自 BUT FITFI MUNICIIRC CTUHugging Face 的所有貢獻者,感謝他們為 BenCzechMark 的誕生所做的寶貴工作。

我們還要感謝為部分任務提供源資料的組織,即 UmímetoCERMATČNK

📚 引用和參考文獻

@article{fajcik2024benczechmark,
title = {{B}en{C}zech{M}ark: A Czech-centric Multitask and Multimetric Benchmark for Language Models with Duel Scoring Mechanism},
author = {Martin Fajcik and Martin Docekal and Jan Dolezal and Karel Ondrej and Karel Benes and Jan Kapsa and Michal Hradis and Zuzana Neverilova and Ales Horak and Michal Stefanik and Adam Jirkovsky and David Adamczyk and Jan Hula and Jan Sedivy and Hynek Kydlicek},
year = {2024},
url = {[https://huggingface.co/spaces/CZLC/BenCzechMark](https://huggingface.co/spaces/CZLC/BenCzechMark)}
institution = {Brno University of Technology, Masaryk University, Czech Technical University in Prague, Hugging Face},
}

社群

註冊登入 以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.