使用 Math-Verify 修正 Open LLM 排行榜

釋出日期:2025 年 2 月 14 日
在 GitHub 上更新

3 周前,我們展示了正確評估 LLM 在數學問題上表現的難度,並引入了 Math-Verify,這是一個在數學方面驗證模型的更好解決方案(更多資訊請閱讀公告)!

今天,我們很高興地宣佈,我們已使用 Math-Verify 徹底重新評估了提交給 Open LLM 排行榜的所有 3,751 個模型,以實現更公平、更可靠的模型比較!

為什麼 Open LLM 排行榜上的數學評估出了問題

Open LLM 排行榜 是 Hugging Face Hub 上使用最廣泛的排行榜:它比較了開放式大型語言模型 (LLM) 在各種任務上的效能。其中一項任務,稱為 MATH-Hard,專門針對數學問題:它評估 LLM 解決高中和大學水平數學問題的能力。它使用來自 Hendrycks MATH 資料集的 1,324 個最高難度問題(Level 5),分佈在 7 個主題(微積分前、初級代數、代數、中級代數、計數/機率和數論)中,採用 5 次取樣法(在提示中提供模型 5 個示例,以展示其應如何回答)。

一個典型的問題看起來像這樣

For all real numbers $r$ and $s$, define the mathematical operation $\#$ such that the following conditions apply: $r\ \#\ 0 = r, r\ \#\ s = s\ \#\ r$, and $(r + 1)\ \#\ s = (r\ \#\ s) + s + 1$. What is the value of $11\ \#\ 5$?

答案將是

71

在排行榜中,模型必須以一個非常特定的字串結束其答案(遵循 Minerva-Math 論文

“Final answer is [ANSWER]. I hope it is correct.”

排行榜隨後會嘗試使用 SymPy 解析 [ANSWER],將其轉換為符號表示(如果需要,簡化值),最後將其與黃金目標進行比較。

然而,使用者報告了上述一些問題。

首先,一個反覆出現的問題是某些模型無法遵循示例中預期的答案格式:它們輸出其他句子來引入其答案。由於未遵循格式,即使答案實際上是正確的,也被標記為錯誤!(如果您對“模型在數學方面有多好”特別感興趣,這是一個問題)。

📄 示例 ❗️問題 ✅ Math-Verify 🛑 舊排行榜
因此,這些三角形之一的周長是 $14 + 7\sqrt{2}$ 英寸,以最簡根式形式表示。 提取失敗 7*sqrt(2) + 14
因此,無限幾何級數的和是 (\frac{7}{9})。 提取失敗 7/9
( p(n) ) 和 ( p(n+1) ) 共享一個大於 1 的公因子是 (\boxed{41})。 提取失敗 4
所以是 \frac{1}{9} 提取失敗 1/9
結論是他有 \boxed{5} 輛車 提取失敗 5

下一步,將 [ANSWER] 轉換為符號表示也出現了一些問題,這次與 SymPy 解析相關

📄 示例 ❗️問題 ✅ Math-Verify 🛑 舊排行榜
最終答案是 $2x + 4y + z - 19 = 0$。我希望它是正確的。 引數方程的部分解析 Eq(2x + 4y + z - 19, 0) 0
(23) 由於 LaTeX 邊框導致提取失敗 23
((- \infty, -14) \cup (-3, \infty)). 由於區間導致提取失敗 Union(Interval.open(-oo, -14), Interval.open(-3, oo))
100% 由於無效符號導致提取失敗 1
\begin{pmatrix}\frac{1}{50}&\frac{7}{50}\frac{7}{50}&\frac{49}{50}\end{pmatrix} 由於矩陣導致提取失敗 Matrix([[1/50, 7/50], [7/50, 49/50]])

在最後一步,當將提取的答案與目標表達式進行比較時,也出現了一些問題

📄 示例 ❗️問題 ✅ Math-Verify 🛑 舊排行榜
1/3 == 0.333333 不支援四捨五入 True 否 (False)
sqrt(1/2)*7 == sqrt(0.5)*7 不支援數值評估 True 否 (False)
k = 1 == 1 不支援變數賦值 True 否 (False)
Matrix.ones == Matrix.ones 不支援矩陣等價 True 否 (False)
{1} \union {1,4} == {1,4} 不支援集合比較 True 否 (False)

所有這些問題現在都透過新的 Math-Verify 解析器得到了徹底解決!

哪個模型最擅長數學?得益於更公平的評估,排行榜徹底洗牌

由於所有這些問題往往會累積,一些模型因此受到了嚴重影響,它們的效能被嚴重低估……因此我們刪除了之前的評估器並添加了 Math-Verify,這就像只修改了 3 行程式碼一樣簡單!(您也可以在您的數學評估中嘗試一下!)

這意味著重新評估自 6 月份以來提交的所有模型……這徹底改變了排行榜 MATH 子集中的前 20 個模型。

更改的影響

平均而言,模型在整體上多解決了 61 個問題,相當於整體提升了 4.66 分

score_change

表現出最顯著改進的兩個子集都與代數相關(代數和初級代數),分別獲得了 8.276.93 的增長。在極端情況下,一些模型在這些子集上表現出近 90 分的改進。我們認為這些子集之所以能看到最大的改進,是因為它們經常涉及以集合(由於有多個解決方案的問題)和矩陣形式呈現的答案。Math-Verify 增強了對這兩種答案型別的處理,從而促成了這些顯著的增長。

subset_change

模型家族變化

我們最初在檢查 Qwen 模型時發現了數學評估問題,這些模型的得分異常低,與其自我報告的效能相比。在引入 Math-Verify 後,這些模型的得分翻了一倍多,顯示出之前對效能的嚴重低估。

但 Qwen 模型並非個例。另一個受影響的主要家族是 DeepSeek。切換到 Math-Verify 後,DeepSeek 模型的得分幾乎翻了兩倍!這是因為它們的答案通常被包含在方框 (\boxed{}) 符號中,而舊的評估器無法提取。 model_family_change

MATH-Hard 排行榜的變化

正如開頭所述,前 20 名排名發生了顯著變化,Nvidia 的 AceMath 模型現在主導著 MATH-Hard 排行榜。此次變化的其他主要受益者是 Qwen 衍生模型,它們現在幾乎是 AceMath 之後唯一的模型。以下是比較新舊前 20 名排行榜排名的完整表格

math_hard_leaderboard_change

排行榜的變化

最後,我們檢查了整體排行榜結果的演變。雖然前四名保持不變,但其餘排名發生了顯著變化。由於多個 Qwen 衍生模型在 MATH 子集中的崛起,Qwen 模型在整體結果中進入前 20 名的數量進一步增加。 leaderboard_change

許多其他模型也完全躍升了排名,上升了 200 個或更多名次!您可以在 Open LLM 排行榜上檢視更詳細的結果。

總結

Math-Verify 的引入顯著提高了 Open LLM 排行榜評估的準確性和公平性。這導致了排行榜的洗牌,許多模型的得分有了顯著提高。

我們鼓勵所有開發人員和研究人員在自己的數學評估中採用 Math-Verify。透過這樣做,您可以確保您的模型得到更可靠的結果評估。此外,我們邀請您探索更新後的排名,看看您最喜歡的模型的效能是如何變化的。

社群

太棒了!我之前就提出了 Qwen 模型的問題 :) https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard/discussions/942

是的,現在已經修復了 :)

📻 🎙️ 嘿,我為這篇部落格文章製作了一個播客,快來聽聽吧!

該播客由 ngxson/kokoro-podcast-generator 生成,使用了 DeepSeek-R1 和 Kokoro-TTS

Math-Verify 能整合到 lighteval 庫中嗎?

@pulkitmehtawork
據我所知,它已經集成了 :)

這會包含在 lm-evaluation-harness 中嗎?

·

Open LLM 排行榜不再是一個活躍的專案 :(

註冊登入 以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.