排行榜文件

開放大語言模型排行榜 v1

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

開放大語言模型排行榜 v1

評估和比較大語言模型(LLM)非常困難。一年前,我們的 RLHF 團隊在想要復現和比較幾個已釋出模型的結果時就意識到了這一點。這幾乎是一項不可能完成的任務:論文或市場宣傳稿中給出的分數沒有任何可復現的程式碼,有時結果存疑,但大多數情況下,只是使用了最佳化的提示詞或評估設定來給模型創造最佳表現機會。因此,他們決定建立一個平臺,在這裡,參考模型將在完全相同的設定下(同樣的問題,按同樣的順序提問等)進行評估,以收集完全可復現和可比較的結果;開放大語言模型排行榜就這樣誕生了!

在一系列備受矚目的模型釋出之後,它成為了機器學習社群內外廣泛使用的資源,在過去 10 個月裡,吸引了超過 200 萬獨立訪客。

大約有 30 萬社群成員每月透過提交和討論的方式使用它並進行協作,通常是為了:

  • 找到最先進的開源模型,因為排行榜提供了可復現的分數,將市場宣傳的噱頭與該領域的實際進展區分開來。
  • 評估自己的工作,無論是預訓練還是微調,公開地與現有最佳模型進行比較,並獲得公眾認可。

在 2024 年 6 月,我們將其存檔,並由一個新版本取代,但下面你將找到所有相關資訊!

任務

📈 我們使用了 Eleuther AI 語言模型評估框架,在一個統一的框架下,對 6 個關鍵基準測試中的模型進行了評估,該框架可用於在大量不同的評估任務上測試生成式語言模型。

  • AI2 推理挑戰賽 (25-shot) - 一系列小學科學問題。
  • HellaSwag (10-shot) - 一項常識推理測試,對人類來說很簡單(約 95%),但對最先進的模型來說具有挑戰性。
  • MMLU (5-shot) - 一項衡量文字模型多工準確性的測試。該測試涵蓋 57 項任務,包括初等數學、美國曆史、計算機科學、法律等。
  • TruthfulQA (0-shot) - 一項衡量模型複述網上常見謬誤傾向的測試。注意:在評估框架中,TruthfulQA 技術上是一個 6-shot 任務,因為即使在 0-shot 設定下,每個示例前都會附加 6 對問答。
  • Winogrande (5-shot) - 一個大規模的、具有對抗性和難度的 Winograd 基準測試,用於常識推理。
  • GSM8k (5-shot) - 多樣化的小學數學應用題,用於衡量模型解決多步數學推理問題的能力。

對於所有這些評估,分數越高越好。

我們選擇這些基準是因為它們在 0-shot 和 few-shot 設定下,測試了廣泛領域內的各種推理和通用知識。

結果

您可以找到

可復現性

要復現我們的結果,您可以使用此版本的 Eleuther AI Harness 執行以下命令

python main.py --model=hf-causal-experimental \
    --model_args="pretrained=<your_model>,use_accelerate=True,revision=<your_model_revision>" \
    --tasks=<task_list> \
    --num_fewshot=<n_few_shot> \
    --batch_size=1 \
    --output_path=<output_path>

注意: 我們在由 8 個 H100 組成的單個節點上評估了所有模型,因此每次評估的全域性批處理大小為 8。如果您不使用並行處理,請調整您的批處理大小以適應。由於填充(padding)的原因,不同批處理大小的結果可能會有輕微差異。

任務和 few shots 引數如下:

  • ARC: 25-shot, arc-challenge (acc_norm)
  • HellaSwag: 10-shot, hellaswag (acc_norm)
  • TruthfulQA: 0-shot, truthfulqa-mc (mc2)
  • MMLU: 5-shot, hendrycksTest-abstract_algebra,hendrycksTest-anatomy,hendrycksTest-astronomy,hendrycksTest-business_ethics,hendrycksTest-clinical_knowledge,hendrycksTest-college_biology,hendrycksTest-college_chemistry,hendrycksTest-college_computer_science,hendrycksTest-college_mathematics,hendrycksTest-college_medicine,hendrycksTest-college_physics,hendrycksTest-computer_security,hendrycksTest-conceptual_physics,hendrycksTest-econometrics,hendrycksTest-electrical_engineering,hendrycksTest-elementary_mathematics,hendrycksTest-formal_logic,hendrycksTest-global_facts,hendrycksTest-high_school_biology,hendrycksTest-high_school_chemistry,hendrycksTest-high_school_computer_science,hendrycksTest-high_school_european_history,hendrycksTest-high_school_geography,hendrycksTest-high_school_government_and_politics,hendrycksTest-high_school_macroeconomics,hendrycksTest-high_school_mathematics,hendrycksTest-high_school_microeconomics,hendrycksTest-high_school_physics,hendrycksTest-high_school_psychology,hendrycksTest-high_school_statistics,hendrycksTest-high_school_us_history,hendrycksTest-high_school_world_history,hendrycksTest-human_aging,hendrycksTest-human_sexuality,hendrycksTest-international_law,hendrycksTest-jurisprudence,hendrycksTest-logical_fallacies,hendrycksTest-machine_learning,hendrycksTest-management,hendrycksTest-marketing,hendrycksTest-medical_genetics,hendrycksTest-miscellaneous,hendrycksTest-moral_disputes,hendrycksTest-moral_scenarios,hendrycksTest-nutrition,hendrycksTest-philosophy,hendrycksTest-prehistory,hendrycksTest-professional_accounting,hendrycksTest-professional_law,hendrycksTest-professional_medicine,hendrycksTest-professional_psychology,hendrycksTest-public_relations,hendrycksTest-security_studies,hendrycksTest-sociology,hendrycksTest-us_foreign_policy,hendrycksTest-virology,hendrycksTest-world_religions (所有結果的平均值 acc)
  • Winogrande: 5-shot, winogrande (acc)
  • GSM8k: 5-shot, gsm8k (acc) 關於基準分數的旁註
  • 對於對數似然評估,我們選擇隨機基線
  • 對於 GSM8K,我們選擇論文中在完整的 GSM8K 訓練集上對一個 6B 模型進行 50 個 epoch 微調後獲得的分數

部落格

在排行榜的生命週期中,我們寫了兩篇部落格,您可以在這裡這裡找到它們

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.