排行榜文件
Open LLM Leaderboard v1
並獲得增強的文件體驗
開始使用
Open LLM Leaderboard v1
評估和比較LLM是一件困難的事情。一年前,我們的RLHF團隊在想要復現和比較幾個已釋出模型的成果時就發現了這一點。這幾乎是不可能完成的任務:論文或營銷宣傳中的分數都沒有提供可復現的程式碼,有時甚至是可疑的,但在大多數情況下,只是使用了最佳化的提示或評估設定,以便為模型提供最好的機會。因此,他們決定建立一個平臺,讓參考模型在完全相同的設定下(相同的問題,以相同的順序提問等)進行評估,以收集完全可復現和可比較的結果;Open LLM Leaderboard 就這樣誕生了!
繼一系列備受矚目的模型釋出之後,它已成為機器學習社群及其他領域的一個廣泛使用的資源,在過去10個月裡,有超過200萬獨立使用者訪問過。
大約有30萬社群成員每月透過提交和討論來使用和協作它,通常是為了
- 找到最先進的開源版本,因為排行榜提供了可復現的分數,將營銷宣傳與該領域的實際進展區分開來。
- 評估他們的工作,無論是預訓練還是微調,在公開場合與現有的最佳模型進行比較,並獲得公眾認可。
2024年6月,我們將其存檔,並被新版本取代,但下面,您將找到所有相關資訊!
任務
📈 我們使用Eleuther AI Language Model Evaluation Harness(一個用於在大量不同評估任務上測試生成式語言模型的統一框架)在6個關鍵基準上評估了模型。
- AI2推理挑戰(25-shot)- 一組小學科學問題。
- HellaSwag(10-shot)- 測試常識推理能力,對人類來說很容易(約95%),但對SOTA模型來說具有挑戰性。
- MMLU(5-shot)- 測試文字模型的多工準確性。該測試涵蓋57個任務,包括基礎數學、美國曆史、計算機科學、法律等。
- TruthfulQA(0-shot)- 測試模型複製網上常見謊言的傾向。注意:TruthfulQA在Harness中技術上是一個6-shot任務,因為即使在0-shot設定下,每個示例前面都有6對問答。
- Winogrande(5-shot)- 一個大規模的對抗性且困難的Winograd基準,用於常識推理。
- GSM8k(5-shot)- 多樣化的小學數學應用題,用於衡量模型解決多步數學推理問題的能力。
對於所有這些評估,分數越高越好。
我們選擇這些基準是因為它們在0-shot和few-shot設定下,測試了跨越廣泛領域的各種推理和通用知識。
結果
您可以在
- Hugging Face資料集
results中找到詳細的數字結果:https://huggingface.co/datasets/open-llm-leaderboard-old/results - 每個模型
details中的模型輸入/輸出細節,您可以透過點選模型名稱後的📄表情符號來訪問 - Hugging Face資料集
requests中的社群查詢和執行狀態:https://huggingface.co/datasets/open-llm-leaderboard-old/requests 如果模型名稱包含“Flagged”,則表示該模型已被社群標記,應忽略!點選連結將重定向到關於該模型的討論。
可復現性
要復現我們的結果,您可以使用以下命令,使用此版本的 Eleuther AI Harness
python main.py --model=hf-causal-experimental \
--model_args="pretrained=<your_model>,use_accelerate=True,revision=<your_model_revision>" \
--tasks=<task_list> \
--num_fewshot=<n_few_shot> \
--batch_size=1 \
--output_path=<output_path>注意: 我們在單節點8個H100上評估了所有模型,因此每個評估的全域性批次大小為8。如果您不使用並行處理,請調整您的批次大小以適應。您可能會注意到,由於填充(padding)的原因,不同批次大小的結果會有細微差異。
任務和few shots引數是
- ARC: 25-shot, arc-challenge (
acc_norm) - HellaSwag: 10-shot, hellaswag (
acc_norm) - TruthfulQA: 0-shot, truthfulqa-mc (
mc2) - MMLU: 5-shot, hendrycksTest-abstract_algebra,hendrycksTest-anatomy,hendrycksTest-astronomy,hendrycksTest-business_ethics,hendrycksTest-clinical_knowledge,hendrycksTest-college_biology,hendrycksTest-college_chemistry,hendrycksTest-college_computer_science,hendrycksTest-college_mathematics,hendrycksTest-college_medicine,hendrycksTest-college_physics,hendrycksTest-computer_security,hendrycksTest-conceptual_physics,hendrycksTest-econometrics,hendrycksTest-electrical_engineering,hendrycksTest-elementary_mathematics,hendrycksTest-formal_logic,hendrycksTest-global_facts,hendrycksTest-high_school_biology,hendrycksTest-high_school_chemistry,hendrycksTest-high_school_computer_science,hendrycksTest-high_school_european_history,hendrycksTest-high_school_geography,hendrycksTest-high_school_government_and_politics,hendrycksTest-high_school_macroeconomics,hendrycksTest-high_school_mathematics,hendrycksTest-high_school_microeconomics,hendrycksTest-high_school_physics,hendrycksTest-high_school_psychology,hendrycksTest-high_school_statistics,hendrycksTest-high_school_us_history,hendrycksTest-high_school_world_history,hendrycksTest-human_aging,hendrycksTest-human_sexuality,hendrycksTest-international_law,hendrycksTest-jurisprudence,hendrycksTest-logical_fallacies,hendrycksTest-machine_learning,hendrycksTest-management,hendrycksTest-marketing,hendrycksTest-medical_genetics,hendrycksTest-miscellaneous,hendrycksTest-moral_disputes,hendrycksTest-moral_scenarios,hendrycksTest-nutrition,hendrycksTest-philosophy,hendrycksTest-prehistory,hendrycksTest-professional_accounting,hendrycksTest-professional_law,hendrycksTest-professional_medicine,hendrycksTest-professional_psychology,hendrycksTest-public_relations,hendrycksTest-security_studies,hendrycksTest-sociology,hendrycksTest-us_foreign_policy,hendrycksTest-virology,hendrycksTest-world_religions (所有結果的平均值
acc) - Winogrande: 5-shot, winogrande (
acc) - GSM8k: 5-shot, gsm8k (
acc) 關於基準分數的旁註 - 對於對數似然評估,我們選擇隨機基準
- 對於GSM8K,我們選擇在用6B模型對完整的GSM8K訓練集進行50個epoch的微調後獲得的論文分數
部落格
在排行榜的生命週期中,我們撰寫了2篇部落格,您可以在這裡和這裡找到它們
在 GitHub 上更新