開放大語言模型排行榜 v1

評估和比較大語言模型（LLM）非常困難。一年前，我們的 RLHF 團隊在想要復現和比較幾個已釋出模型的結果時就意識到了這一點。這幾乎是一項不可能完成的任務：論文或市場宣傳稿中給出的分數沒有任何可復現的程式碼，有時結果存疑，但大多數情況下，只是使用了最佳化的提示詞或評估設定來給模型創造最佳表現機會。因此，他們決定建立一個平臺，在這裡，參考模型將在完全相同的設定下（同樣的問題，按同樣的順序提問等）進行評估，以收集完全可復現和可比較的結果；開放大語言模型排行榜就這樣誕生了！

在一系列備受矚目的模型釋出之後，它成為了機器學習社群內外廣泛使用的資源，在過去 10 個月裡，吸引了超過 200 萬獨立訪客。

大約有 30 萬社群成員每月透過提交和討論的方式使用它並進行協作，通常是為了：

找到最先進的開源模型，因為排行榜提供了可復現的分數，將市場宣傳的噱頭與該領域的實際進展區分開來。
評估自己的工作，無論是預訓練還是微調，公開地與現有最佳模型進行比較，並獲得公眾認可。

在 2024 年 6 月，我們將其存檔，並由一個新版本取代，但下面你將找到所有相關資訊！

任務

📈 我們使用了 Eleuther AI 語言模型評估框架，在一個統一的框架下，對 6 個關鍵基準測試中的模型進行了評估，該框架可用於在大量不同的評估任務上測試生成式語言模型。

AI2 推理挑戰賽 (25-shot) - 一系列小學科學問題。
HellaSwag (10-shot) - 一項常識推理測試，對人類來說很簡單（約 95%），但對最先進的模型來說具有挑戰性。
MMLU (5-shot) - 一項衡量文字模型多工準確性的測試。該測試涵蓋 57 項任務，包括初等數學、美國曆史、計算機科學、法律等。
TruthfulQA (0-shot) - 一項衡量模型複述網上常見謬誤傾向的測試。注意：在評估框架中，TruthfulQA 技術上是一個 6-shot 任務，因為即使在 0-shot 設定下，每個示例前都會附加 6 對問答。
Winogrande (5-shot) - 一個大規模的、具有對抗性和難度的 Winograd 基準測試，用於常識推理。
GSM8k (5-shot) - 多樣化的小學數學應用題，用於衡量模型解決多步數學推理問題的能力。

對於所有這些評估，分數越高越好。

我們選擇這些基準是因為它們在 0-shot 和 few-shot 設定下，測試了廣泛領域內的各種推理和通用知識。

結果

您可以找到

Hugging Face 的 results 資料集中的詳細數值結果：https://huggingface.co/datasets/open-llm-leaderboard-old/results
每個模型輸入/輸出的詳細資訊，可透過點選模型名稱後的 📄 表情符號訪問
Hugging Face 的 requests 資料集中的社群查詢和執行狀態：https://huggingface.co/datasets/open-llm-leaderboard-old/requests 如果一個模型的名稱包含“Flagged”，這表示它已被社群標記，可能應該忽略！點選連結將重定向到關於該模型的討論區。

可復現性

要復現我們的結果，您可以使用此版本的 Eleuther AI Harness 執行以下命令

python main.py --model=hf-causal-experimental \
    --model_args="pretrained=<your_model>,use_accelerate=True,revision=<your_model_revision>" \
    --tasks=<task_list> \
    --num_fewshot=<n_few_shot> \
    --batch_size=1 \
    --output_path=<output_path>

注意： 我們在由 8 個 H100 組成的單個節點上評估了所有模型，因此每次評估的全域性批處理大小為 8。如果您不使用並行處理，請調整您的批處理大小以適應。由於填充（padding）的原因，不同批處理大小的結果可能會有輕微差異。

任務和 few shots 引數如下：

ARC: 25-shot, arc-challenge (acc_norm)
HellaSwag: 10-shot, hellaswag (acc_norm)
TruthfulQA: 0-shot, truthfulqa-mc (mc2)
MMLU: 5-shot, hendrycksTest-abstract_algebra,hendrycksTest-anatomy,hendrycksTest-astronomy,hendrycksTest-business_ethics,hendrycksTest-clinical_knowledge,hendrycksTest-college_biology,hendrycksTest-college_chemistry,hendrycksTest-college_computer_science,hendrycksTest-college_mathematics,hendrycksTest-college_medicine,hendrycksTest-college_physics,hendrycksTest-computer_security,hendrycksTest-conceptual_physics,hendrycksTest-econometrics,hendrycksTest-electrical_engineering,hendrycksTest-elementary_mathematics,hendrycksTest-formal_logic,hendrycksTest-global_facts,hendrycksTest-high_school_biology,hendrycksTest-high_school_chemistry,hendrycksTest-high_school_computer_science,hendrycksTest-high_school_european_history,hendrycksTest-high_school_geography,hendrycksTest-high_school_government_and_politics,hendrycksTest-high_school_macroeconomics,hendrycksTest-high_school_mathematics,hendrycksTest-high_school_microeconomics,hendrycksTest-high_school_physics,hendrycksTest-high_school_psychology,hendrycksTest-high_school_statistics,hendrycksTest-high_school_us_history,hendrycksTest-high_school_world_history,hendrycksTest-human_aging,hendrycksTest-human_sexuality,hendrycksTest-international_law,hendrycksTest-jurisprudence,hendrycksTest-logical_fallacies,hendrycksTest-machine_learning,hendrycksTest-management,hendrycksTest-marketing,hendrycksTest-medical_genetics,hendrycksTest-miscellaneous,hendrycksTest-moral_disputes,hendrycksTest-moral_scenarios,hendrycksTest-nutrition,hendrycksTest-philosophy,hendrycksTest-prehistory,hendrycksTest-professional_accounting,hendrycksTest-professional_law,hendrycksTest-professional_medicine,hendrycksTest-professional_psychology,hendrycksTest-public_relations,hendrycksTest-security_studies,hendrycksTest-sociology,hendrycksTest-us_foreign_policy,hendrycksTest-virology,hendrycksTest-world_religions (所有結果的平均值 acc)
Winogrande: 5-shot, winogrande (acc)
GSM8k: 5-shot, gsm8k (acc) 關於基準分數的旁註
對於對數似然評估，我們選擇隨機基線
對於 GSM8K，我們選擇論文中在完整的 GSM8K 訓練集上對一個 6B 模型進行 50 個 epoch 微調後獲得的分數

部落格

在排行榜的生命週期中，我們寫了兩篇部落格，您可以在這裡和這裡找到它們

< > 在 GitHub 上更新