排行榜文件
關於
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
關於
隨著大型語言模型(LLM)和聊天機器人的數量每週都在增加,它們經常誇大其效能,這使得很難篩選出開源社群取得的真正進展以及當前最先進的模型是哪個。
我們寫了一篇釋出部落格在這裡,解釋了我們為什麼推出這個排行榜!
任務
📈 我們使用Eleuther AI Language Model Evaluation Harness,這是一個統一的框架,用於在大量不同的評估任務上測試生成語言模型,在6個關鍵基準上評估模型。
- IFEval(https://arxiv.org/abs/2311.07911)– IFEval是一個數據集,旨在測試模型遵循明確指令的能力,例如“包含關鍵詞x”或“使用格式y”。重點在於模型對格式指令的遵守程度,而不是生成的內容,這允許使用嚴格的指標。
- BBH (Big Bench Hard)(https://arxiv.org/abs/2210.09261)– BigBench 資料集中的 23 個挑戰性任務的子集,用於評估語言模型。這些任務使用客觀指標,難度很高,並且有足夠的樣本量以確保統計顯著性。它們包括多步算術、演算法推理(例如,布林表示式、SVG 形狀)、語言理解(例如,諷刺檢測、名稱消歧)和世界知識。BBH 的效能與人類偏好高度相關,為模型能力提供了寶貴的見解。
- MATH(https://arxiv.org/abs/2103.03874)– MATH 是從多個來源收集的高中水平競賽題目的彙編,使用 Latex 格式化方程式,並使用 Asymptote 格式化圖形。生成的答案必須符合非常特定的輸出格式。我們只保留 Lvl 5 的 MATH 問題,並稱之為 MATH Lvl 5。
- GPQA (Graduate-Level Google-Proof Q&A Benchmark)(https://arxiv.org/abs/2311.12022)– GPQA 是一個極具挑戰性的知識資料集,問題由生物學、物理學和化學等領域的博士級領域專家設計。這些問題旨在讓普通人覺得困難,但對專家來說相對容易。該資料集經過多輪驗證,以確保難度和事實準確性。GPQA 的訪問透過門控機制進行限制,以最大程度地減少資料汙染的風險。因此,根據作者的要求,我們不提供該資料集的純文字示例。
- MuSR (Multistep Soft Reasoning)(https://arxiv.org/abs/2310.16049)– MuSR 是一個由演算法生成、每個長度約 1000 字的複雜問題組成的新資料集。問題包括謀殺之謎、物體放置問題和團隊分配最佳化。解決這些問題需要模型將推理與長距離上下文解析相結合。很少有模型在此資料集上取得比隨機效能更好的結果。
- MMLU-PRO (Massive Multitask Language Understanding - Professional)(https://arxiv.org/abs/2406.01574)– MMLU-Pro 是 MMLU 資料集的精煉版本,MMLU 一直是多項選擇知識評估的標準。最近的研究指出了原始 MMLU 的問題,例如資料噪聲(一些無法回答的問題)以及由於模型能力的進步和資料汙染的增加而導致的難度下降。MMLU-Pro 透過提供 10 個選項而不是 4 個選項來解決這些問題,需要對更多問題進行推理,並經過專家評審以減少噪聲。因此,MMLU-Pro 的質量更高,目前比原始版本更具挑戰性。
對於所有這些評估,分數越高越好。我們選擇這些基準是因為它們在 0-shot 和 few-shot 設定下,測試了在廣泛領域內的各種推理和常識知識。
模型型別
- 🟢 預訓練模型: 使用掩碼建模在給定文字語料庫上訓練的新基礎模型。
- 🟩 持續預訓練模型: 使用掩碼建模在更多語料庫(可能包括 IFT/聊天資料)上持續訓練的新基礎模型。
- 🔶 在領域特定資料集上微調的模型: 在更多資料上微調的預訓練模型。
- 💬 聊天模型(RLHF、DPO、IFT 等): 使用 IFT(任務指令資料集)、RLHF、DPO(透過新增的策略改變模型損失)等進行類聊天微調。
- 🤝 基礎合併和 Moerges 模型: 合併或 MoErge 的模型,這些模型未經額外微調而被合併或融合。
結果
您可以在
resultsHugging Face 資料集中找到詳細的數值結果。- 您可以透過點選模型名稱後的 📄 表情符號來訪問模型
details中的模型輸入/輸出詳情。 - 社群查詢和執行狀態可以在
requestsHugging Face 資料集中找到。
如果模型名稱包含“Flagged”,這表明它已被社群標記,通常應該被忽略!點選連結將重定向到關於該模型的討論。
可復現性
為了重現我們的結果,您可以使用我們lm_eval的 fork 版本,因為我們的 PR 目前尚未全部合併。
git clone git@github.com:huggingface/lm-evaluation-harness.git
cd lm-evaluation-harness
git checkout main
pip install -e .
lm-eval --model_args="pretrained=<your_model>,revision=<your_model_revision>,dtype=<model_dtype>" --tasks=leaderboard --batch_size=auto --output_path=<output_path>注意:對於指令模型,請新增 --apply_chat_template 和 fewshot_as_multiturn 選項。
注意:由於填充的原因,您可能會發現不同批處理大小的結果略有差異。
任務評估與引數
IFEval:
- 任務:“IFEval”
- 指標:例項和提示級別的嚴格準確率(
inst_level_strict_acc,none和prompt_level_strict_acc,none) - Shot:例項級別嚴格準確率和提示級別嚴格準確率的 0-shot
- num_choices:例項和提示級別的嚴格準確率均為 0。
Big Bench Hard (BBH):
- 總任務:“BBH”
- Shot:每個子任務的 3-shot
- 指標:所有子任務的標準化準確率(
acc_norm,none) - 帶有
num_choices的子任務列表- BBH 體育理解,num_choices=2
- BBH 跟蹤被打亂的物體(三個物體),num_choices=3
- BBH 導航,num_choices=2
- BBH 咬文嚼字,num_choices=2
- BBH 日期理解,num_choices=6
- BBH 關於彩色物體的推理,num_choices=18
- BBH 物體計數,num_choices=19(應該是 18,但我們添加了一個“0”選項)
- BBH 邏輯推理(七個物體),num_choices=7
- BBH 幾何形狀,num_choices=11
- BBH 謊言之網,num_choices=2
- BBH 電影推薦,num_choices=6
- BBH 邏輯推理(五個物體),num_choices=5
- BBH 顯著性翻譯錯誤檢測,num_choices=6
- BBH 消歧問答,num_choices=3
- BBH 時間序列,num_choices=4
- BBH 語序顛倒,num_choices=2
- BBH 邏輯推理(三個物體),num_choices=3
- BBH 因果判斷,num_choices=2
- BBH 形式謬誤,num_choices=2
- BBH 跟蹤被打亂的物體(七個物體),num_choices=7
- BBH 廢墟名稱,num_choices=6
- BBH 桌上的企鵝,num_choices=5
- BBH 布林表示式,num_choices=2
- BBH 跟蹤被打亂的物體(五個物體),num_choices=5
數學挑戰:
- 任務:“Math Level 5”
- 指標:精確匹配(
exact_match,none) - Shot:4-shot
- num_choices: 0
廣義目的問答(GPQA):
- 任務:“GPQA”
- 指標:標準化準確率(
acc_norm,none) - Shot:0-shot
- num_choices: 4
MuSR:
- 總任務:“MuSR”
- 指標:所有子任務的標準化準確率(
acc_norm,none) - MuSR 謀殺之謎:0-shot, num_choices: 2
- MuSR 物體放置:0-shot, num_choices: 5
- MuSR 團隊分配:0-shot, num_choices: 3
MMLU-PRO:
- 任務:“MMLU-PRO”
- 指標:準確率(
acc,none) - Shot:5-shot
- num_choices: 10