排行榜文件

Open LLM Leaderboard v1

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Open LLM Leaderboard v1

評估和比較LLM是一件困難的事情。一年前,我們的RLHF團隊在想要復現和比較幾個已釋出模型的成果時就發現了這一點。這幾乎是不可能完成的任務:論文或營銷宣傳中的分數都沒有提供可復現的程式碼,有時甚至是可疑的,但在大多數情況下,只是使用了最佳化的提示或評估設定,以便為模型提供最好的機會。因此,他們決定建立一個平臺,讓參考模型在完全相同的設定下(相同的問題,以相同的順序提問等)進行評估,以收集完全可復現和可比較的結果;Open LLM Leaderboard 就這樣誕生了!

繼一系列備受矚目的模型釋出之後,它已成為機器學習社群及其他領域的一個廣泛使用的資源,在過去10個月裡,有超過200萬獨立使用者訪問過。

大約有30萬社群成員每月透過提交和討論來使用和協作它,通常是為了

  • 找到最先進的開源版本,因為排行榜提供了可復現的分數,將營銷宣傳與該領域的實際進展區分開來。
  • 評估他們的工作,無論是預訓練還是微調,在公開場合與現有的最佳模型進行比較,並獲得公眾認可。

2024年6月,我們將其存檔,並被新版本取代,但下面,您將找到所有相關資訊!

任務

📈 我們使用Eleuther AI Language Model Evaluation Harness(一個用於在大量不同評估任務上測試生成式語言模型的統一框架)在6個關鍵基準上評估了模型。

  • AI2推理挑戰(25-shot)- 一組小學科學問題。
  • HellaSwag(10-shot)- 測試常識推理能力,對人類來說很容易(約95%),但對SOTA模型來說具有挑戰性。
  • MMLU(5-shot)- 測試文字模型的多工準確性。該測試涵蓋57個任務,包括基礎數學、美國曆史、計算機科學、法律等。
  • TruthfulQA(0-shot)- 測試模型複製網上常見謊言的傾向。注意:TruthfulQA在Harness中技術上是一個6-shot任務,因為即使在0-shot設定下,每個示例前面都有6對問答。
  • Winogrande(5-shot)- 一個大規模的對抗性且困難的Winograd基準,用於常識推理。
  • GSM8k(5-shot)- 多樣化的小學數學應用題,用於衡量模型解決多步數學推理問題的能力。

對於所有這些評估,分數越高越好。

我們選擇這些基準是因為它們在0-shot和few-shot設定下,測試了跨越廣泛領域的各種推理和通用知識。

結果

您可以在

可復現性

要復現我們的結果,您可以使用以下命令,使用此版本的 Eleuther AI Harness

python main.py --model=hf-causal-experimental \
    --model_args="pretrained=<your_model>,use_accelerate=True,revision=<your_model_revision>" \
    --tasks=<task_list> \
    --num_fewshot=<n_few_shot> \
    --batch_size=1 \
    --output_path=<output_path>

注意: 我們在單節點8個H100上評估了所有模型,因此每個評估的全域性批次大小為8。如果您不使用並行處理,請調整您的批次大小以適應。您可能會注意到,由於填充(padding)的原因,不同批次大小的結果會有細微差異。

任務和few shots引數是

  • ARC: 25-shot, arc-challenge (acc_norm)
  • HellaSwag: 10-shot, hellaswag (acc_norm)
  • TruthfulQA: 0-shot, truthfulqa-mc (mc2)
  • MMLU: 5-shot, hendrycksTest-abstract_algebra,hendrycksTest-anatomy,hendrycksTest-astronomy,hendrycksTest-business_ethics,hendrycksTest-clinical_knowledge,hendrycksTest-college_biology,hendrycksTest-college_chemistry,hendrycksTest-college_computer_science,hendrycksTest-college_mathematics,hendrycksTest-college_medicine,hendrycksTest-college_physics,hendrycksTest-computer_security,hendrycksTest-conceptual_physics,hendrycksTest-econometrics,hendrycksTest-electrical_engineering,hendrycksTest-elementary_mathematics,hendrycksTest-formal_logic,hendrycksTest-global_facts,hendrycksTest-high_school_biology,hendrycksTest-high_school_chemistry,hendrycksTest-high_school_computer_science,hendrycksTest-high_school_european_history,hendrycksTest-high_school_geography,hendrycksTest-high_school_government_and_politics,hendrycksTest-high_school_macroeconomics,hendrycksTest-high_school_mathematics,hendrycksTest-high_school_microeconomics,hendrycksTest-high_school_physics,hendrycksTest-high_school_psychology,hendrycksTest-high_school_statistics,hendrycksTest-high_school_us_history,hendrycksTest-high_school_world_history,hendrycksTest-human_aging,hendrycksTest-human_sexuality,hendrycksTest-international_law,hendrycksTest-jurisprudence,hendrycksTest-logical_fallacies,hendrycksTest-machine_learning,hendrycksTest-management,hendrycksTest-marketing,hendrycksTest-medical_genetics,hendrycksTest-miscellaneous,hendrycksTest-moral_disputes,hendrycksTest-moral_scenarios,hendrycksTest-nutrition,hendrycksTest-philosophy,hendrycksTest-prehistory,hendrycksTest-professional_accounting,hendrycksTest-professional_law,hendrycksTest-professional_medicine,hendrycksTest-professional_psychology,hendrycksTest-public_relations,hendrycksTest-security_studies,hendrycksTest-sociology,hendrycksTest-us_foreign_policy,hendrycksTest-virology,hendrycksTest-world_religions (所有結果的平均值acc)
  • Winogrande: 5-shot, winogrande (acc)
  • GSM8k: 5-shot, gsm8k (acc) 關於基準分數的旁註
  • 對於對數似然評估,我們選擇隨機基準
  • 對於GSM8K,我們選擇在用6B模型對完整的GSM8K訓練集進行50個epoch的微調後獲得的論文分數

部落格

在排行榜的生命週期中,我們撰寫了2篇部落格,您可以在這裡這裡找到它們

在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.