排行榜文件
開放大語言模型排行榜 v1
並獲得增強的文件體驗
開始使用
開放大語言模型排行榜 v1
評估和比較大語言模型(LLM)非常困難。一年前,我們的 RLHF 團隊在想要復現和比較幾個已釋出模型的結果時就意識到了這一點。這幾乎是一項不可能完成的任務:論文或市場宣傳稿中給出的分數沒有任何可復現的程式碼,有時結果存疑,但大多數情況下,只是使用了最佳化的提示詞或評估設定來給模型創造最佳表現機會。因此,他們決定建立一個平臺,在這裡,參考模型將在完全相同的設定下(同樣的問題,按同樣的順序提問等)進行評估,以收集完全可復現和可比較的結果;開放大語言模型排行榜就這樣誕生了!
在一系列備受矚目的模型釋出之後,它成為了機器學習社群內外廣泛使用的資源,在過去 10 個月裡,吸引了超過 200 萬獨立訪客。
大約有 30 萬社群成員每月透過提交和討論的方式使用它並進行協作,通常是為了:
- 找到最先進的開源模型,因為排行榜提供了可復現的分數,將市場宣傳的噱頭與該領域的實際進展區分開來。
- 評估自己的工作,無論是預訓練還是微調,公開地與現有最佳模型進行比較,並獲得公眾認可。
在 2024 年 6 月,我們將其存檔,並由一個新版本取代,但下面你將找到所有相關資訊!
任務
📈 我們使用了 Eleuther AI 語言模型評估框架,在一個統一的框架下,對 6 個關鍵基準測試中的模型進行了評估,該框架可用於在大量不同的評估任務上測試生成式語言模型。
- AI2 推理挑戰賽 (25-shot) - 一系列小學科學問題。
- HellaSwag (10-shot) - 一項常識推理測試,對人類來說很簡單(約 95%),但對最先進的模型來說具有挑戰性。
- MMLU (5-shot) - 一項衡量文字模型多工準確性的測試。該測試涵蓋 57 項任務,包括初等數學、美國曆史、計算機科學、法律等。
- TruthfulQA (0-shot) - 一項衡量模型複述網上常見謬誤傾向的測試。注意:在評估框架中,TruthfulQA 技術上是一個 6-shot 任務,因為即使在 0-shot 設定下,每個示例前都會附加 6 對問答。
- Winogrande (5-shot) - 一個大規模的、具有對抗性和難度的 Winograd 基準測試,用於常識推理。
- GSM8k (5-shot) - 多樣化的小學數學應用題,用於衡量模型解決多步數學推理問題的能力。
對於所有這些評估,分數越高越好。
我們選擇這些基準是因為它們在 0-shot 和 few-shot 設定下,測試了廣泛領域內的各種推理和通用知識。
結果
您可以找到
- Hugging Face 的
results
資料集中的詳細數值結果:https://huggingface.co/datasets/open-llm-leaderboard-old/results - 每個模型輸入/輸出的詳細資訊,可透過點選模型名稱後的 📄 表情符號訪問
- Hugging Face 的
requests
資料集中的社群查詢和執行狀態:https://huggingface.co/datasets/open-llm-leaderboard-old/requests 如果一個模型的名稱包含“Flagged”,這表示它已被社群標記,可能應該忽略!點選連結將重定向到關於該模型的討論區。
可復現性
要復現我們的結果,您可以使用此版本的 Eleuther AI Harness 執行以下命令
python main.py --model=hf-causal-experimental \
--model_args="pretrained=<your_model>,use_accelerate=True,revision=<your_model_revision>" \
--tasks=<task_list> \
--num_fewshot=<n_few_shot> \
--batch_size=1 \
--output_path=<output_path>
注意: 我們在由 8 個 H100 組成的單個節點上評估了所有模型,因此每次評估的全域性批處理大小為 8。如果您不使用並行處理,請調整您的批處理大小以適應。由於填充(padding)的原因,不同批處理大小的結果可能會有輕微差異。
任務和 few shots 引數如下:
- ARC: 25-shot, arc-challenge (
acc_norm
) - HellaSwag: 10-shot, hellaswag (
acc_norm
) - TruthfulQA: 0-shot, truthfulqa-mc (
mc2
) - MMLU: 5-shot, hendrycksTest-abstract_algebra,hendrycksTest-anatomy,hendrycksTest-astronomy,hendrycksTest-business_ethics,hendrycksTest-clinical_knowledge,hendrycksTest-college_biology,hendrycksTest-college_chemistry,hendrycksTest-college_computer_science,hendrycksTest-college_mathematics,hendrycksTest-college_medicine,hendrycksTest-college_physics,hendrycksTest-computer_security,hendrycksTest-conceptual_physics,hendrycksTest-econometrics,hendrycksTest-electrical_engineering,hendrycksTest-elementary_mathematics,hendrycksTest-formal_logic,hendrycksTest-global_facts,hendrycksTest-high_school_biology,hendrycksTest-high_school_chemistry,hendrycksTest-high_school_computer_science,hendrycksTest-high_school_european_history,hendrycksTest-high_school_geography,hendrycksTest-high_school_government_and_politics,hendrycksTest-high_school_macroeconomics,hendrycksTest-high_school_mathematics,hendrycksTest-high_school_microeconomics,hendrycksTest-high_school_physics,hendrycksTest-high_school_psychology,hendrycksTest-high_school_statistics,hendrycksTest-high_school_us_history,hendrycksTest-high_school_world_history,hendrycksTest-human_aging,hendrycksTest-human_sexuality,hendrycksTest-international_law,hendrycksTest-jurisprudence,hendrycksTest-logical_fallacies,hendrycksTest-machine_learning,hendrycksTest-management,hendrycksTest-marketing,hendrycksTest-medical_genetics,hendrycksTest-miscellaneous,hendrycksTest-moral_disputes,hendrycksTest-moral_scenarios,hendrycksTest-nutrition,hendrycksTest-philosophy,hendrycksTest-prehistory,hendrycksTest-professional_accounting,hendrycksTest-professional_law,hendrycksTest-professional_medicine,hendrycksTest-professional_psychology,hendrycksTest-public_relations,hendrycksTest-security_studies,hendrycksTest-sociology,hendrycksTest-us_foreign_policy,hendrycksTest-virology,hendrycksTest-world_religions (所有結果的平均值
acc
) - Winogrande: 5-shot, winogrande (
acc
) - GSM8k: 5-shot, gsm8k (
acc
) 關於基準分數的旁註 - 對於對數似然評估,我們選擇隨機基線
- 對於 GSM8K,我們選擇論文中在完整的 GSM8K 訓練集上對一個 6B 模型進行 50 個 epoch 微調後獲得的分數
部落格
在排行榜的生命週期中,我們寫了兩篇部落格,您可以在這裡和這裡找到它們
< > 在 GitHub 上更新