關於

每週都有大量的大型語言模型 (LLM) 和聊天機器人釋出，它們通常都誇大其效能，因此很難篩選出開源社群取得的真正進展，以及哪個模型是當前最先進的。

我們在此處寫了一篇釋出部落格這裡來解釋我們為什麼要推出這個排行榜！

任務

📈 我們使用Eleuther AI 語言模型評估框架在 6 個關鍵基準上評估模型，這是一個統一的框架，用於在大量不同的評估任務上測試生成式語言模型。

IFEval (https://arxiv.org/abs/2311.07911) – IFEval 是一個數據集，旨在測試模型遵循明確指令的能力，例如“包含關鍵詞 x”或“使用格式 y”。重點在於模型對格式化指令的遵守情況，而不是生成的內容，從而允許使用嚴格和嚴謹的指標。
BBH (Big Bench Hard) (https://arxiv.org/abs/2210.09261) – 從 BigBench 資料集中選取的 23 個具有挑戰性的任務的子集，用於評估語言模型。這些任務使用客觀指標，難度很高，並且具有足夠的樣本量以保證統計顯著性。它們包括多步算術、演算法推理（例如，布林表示式、SVG 圖形）、語言理解（例如，諷刺檢測、名稱消歧）和世界知識。BBH 的效能與人類偏好有很好的相關性，為模型能力提供了寶貴的見解。
MATH (https://arxiv.org/abs/2103.03874) – MATH 是從多個來源收集的高中水平競賽問題的彙編，使用 Latex 格式化方程，使用 Asymptote 格式化圖形，格式統一。生成的內容必須符合非常具體的輸出格式。我們只保留 5 級 MATH 問題，並稱之為 MATH Lvl 5。
GPQA (研究生級別谷歌防作弊問答基準) (https://arxiv.org/abs/2311.12022) – GPQA 是一個極具挑戰性的知識資料集，其問題由生物學、物理學和化學等領域的博士級領域專家設計。這些問題對非專業人士來說很難，但對專家來說相對容易。該資料集經過多輪驗證，以確保其難度和事實準確性。對 GPQA 的訪問受到門控機制的限制，以最大限度地降低資料汙染的風險。因此，根據作者的要求，我們不提供此資料集的純文字示例。
MuSR (多步軟推理) (https://arxiv.org/abs/2310.16049) – MuSR 是一個新的資料集，由演算法生成的複雜問題組成，每個問題長約 1000 字。這些問題包括謀殺案、物品放置問題和團隊分配最佳化。解決這些問題需要模型將推理與長距離上下文解析相結合。在該資料集上，很少有模型能取得比隨機猜測更好的效能。
MMLU-PRO (海量多工語言理解 - 專業版) (https://arxiv.org/abs/2406.01574) – MMLU-Pro 是 MMLU 資料集的改進版本，後者一直是多項選擇知識評估的標準。最近的研究發現，原始 MMLU 存在一些問題，例如資料嘈雜（一些無法回答的問題）以及由於模型能力的進步和資料汙染的增加而導致難度下降。MMLU-Pro 透過向模型提供 10 個選項而不是 4 個選項、要求對更多問題進行推理以及經過專家審查以減少噪音來解決這些問題。因此，MMLU-Pro 的質量更高，並且目前比原始版本更具挑戰性。

對於所有這些評估，分數越高越好。我們選擇這些基準是因為它們在 0-shot 和 few-shot 設定下測試了各種領域的推理和常識。

模型型別

🟢 預訓練模型： 使用掩碼建模在給定文字語料庫上訓練的新的基礎模型。
🟩 持續預訓練模型： 使用掩碼建模在更多語料庫（可能包括 IFT/聊天資料）上持續訓練的新的基礎模型。
🔶 在領域特定資料集上微調的模型： 在更多資料上微調的預訓練模型。
💬 聊天模型 (RLHF, DPO, IFT, …)： 使用 IFT (任務指令資料集)、RLHF、DPO (透過增加策略來改變模型損失) 等進行類聊天微調。
🤝 基礎合併和 Moerges 模型： Merges 或 MoErges，即未經額外微調而合併或融合的模型。

結果

您可以找到

results Hugging Face 資料集中的詳細數值結果。
每個模型的details中有關模型輸入/輸出的詳細資訊，您可以透過單擊模型名稱後的 📄 表情符號來訪問。
requests Hugging Face 資料集中的社群查詢和執行狀態。

如果模型名稱包含“Flagged”，則表示它已被社群標記，可能應該被忽略！單擊連結將重定向到有關該模型的討論。

復現性

要復現我們的結果，您可以使用我們的 lm_eval 分支，因為目前我們的 PR 並非全部都已合併。

git clone git@github.com:huggingface/lm-evaluation-harness.git
cd lm-evaluation-harness
git checkout main
pip install -e .
lm-eval --model_args="pretrained=<your_model>,revision=<your_model_revision>,dtype=<model_dtype>" --tasks=leaderboard  --batch_size=auto --output_path=<output_path>

注意： 對於指令模型，請新增 --apply_chat_template 和 fewshot_as_multiturn 選項。

注意： 您可以預期，由於填充的原因，不同批次大小的結果會略有不同。

任務評估和引數

IFEval:

任務：“IFEval”
度量：例項和提示級別的嚴格準確率 (inst_level_strict_acc,none 和 prompt_level_strict_acc,none)
樣本數 (Shots)：例項級嚴格準確率和提示級嚴格準確率均為 0-shot
num_choices：例項級和提示級嚴格準確率均為 0。

Big Bench Hard (BBH):

概述任務：“BBH”
樣本數 (Shots)：每個子任務 3-shot
度量：所有子任務的歸一化準確率 (acc_norm,none)
帶 num_choices 的子任務列表
- BBH 體育理解，num_choices=2
- BBH 跟蹤洗牌物件（三個物件），num_choices=3
- BBH 導航，num_choices=2
- BBH 諷刺話，num_choices=2
- BBH 日期理解，num_choices=6
- BBH 關於彩色物體的推理，num_choices=18
- BBH 物件計數，num_choices=19 (應為 18，但我們添加了一個“0”選項)
- BBH 邏輯推導（七個物件），num_choices=7
- BBH 幾何形狀，num_choices=11
- BBH 謊言之網，num_choices=2
- BBH 電影推薦，num_choices=6
- BBH 邏輯推導（五個物件），num_choices=5
- BBH 突出翻譯錯誤檢測，num_choices=6
- BBH 消歧問答，num_choices=3
- BBH 時間序列，num_choices=4
- BBH 倒裝法，num_choices=2
- BBH 邏輯推導（三個物件），num_choices=3
- BBH 因果判斷，num_choices=2
- BBH 形式謬誤，num_choices=2
- BBH 跟蹤洗牌物件（七個物件），num_choices=7
- BBH 破壞名字，num_choices=6
- BBH 表格中的企鵝，num_choices=5
- BBH 布林表示式，num_choices=2
- BBH 跟蹤洗牌物件（五個物件），num_choices=5

數學挑戰:

任務：“Math Level 5”
度量：完全匹配 (exact_match,none)
樣本數 (Shots)：4-shot
num_choices: 0

通用目的問答 (GPQA):

任務：“GPQA”
度量：歸一化準確率 (acc_norm,none)
樣本數 (Shots)：0-shot
num_choices: 4

MuSR:

概述任務：“MuSR”
度量：所有子任務的歸一化準確率 (acc_norm,none)
MuSR 謀殺案：0-shot，num_choices: 2
MuSR 物品放置：0-shot，num_choices: 5
MuSR 團隊分配：0-shot，num_choices: 3

MMLU-PRO:

任務：“MMLU-PRO”
度量：準確率 (acc,none)
樣本數 (Shots)：5-shot
num_choices: 10

< > 在 GitHub 上更新