使用 Math-Verify 修正 Open LLM 排行榜

釋出日期：2025 年 2 月 14 日

在 GitHub 上更新

贊

3 周前，我們展示了正確評估 LLM 在數學問題上表現的難度，並引入了 Math-Verify，這是一個在數學方面驗證模型的更好解決方案（更多資訊請閱讀公告）！

今天，我們很高興地宣佈，我們已使用 Math-Verify 徹底重新評估了提交給 Open LLM 排行榜的所有 3,751 個模型，以實現更公平、更可靠的模型比較！

為什麼 Open LLM 排行榜上的數學評估出了問題

Open LLM 排行榜是 Hugging Face Hub 上使用最廣泛的排行榜：它比較了開放式大型語言模型 (LLM) 在各種任務上的效能。其中一項任務，稱為 MATH-Hard，專門針對數學問題：它評估 LLM 解決高中和大學水平數學問題的能力。它使用來自 Hendrycks MATH 資料集的 1,324 個最高難度問題（Level 5），分佈在 7 個主題（微積分前、初級代數、代數、中級代數、計數/機率和數論）中，採用 5 次取樣法（在提示中提供模型 5 個示例，以展示其應如何回答）。

一個典型的問題看起來像這樣

For all real numbers $r$ and $s$, define the mathematical operation $\#$ such that the following conditions apply: $r\ \#\ 0 = r, r\ \#\ s = s\ \#\ r$, and $(r + 1)\ \#\ s = (r\ \#\ s) + s + 1$. What is the value of $11\ \#\ 5$?

答案將是

在排行榜中，模型必須以一個非常特定的字串結束其答案（遵循 Minerva-Math 論文）

“Final answer is [ANSWER]. I hope it is correct.”

排行榜隨後會嘗試使用 SymPy 解析 [ANSWER]，將其轉換為符號表示（如果需要，簡化值），最後將其與黃金目標進行比較。

然而，使用者報告了上述一些問題。

首先，一個反覆出現的問題是某些模型無法遵循示例中預期的答案格式：它們輸出其他句子來引入其答案。由於未遵循格式，即使答案實際上是正確的，也被標記為錯誤！（如果您對“模型在數學方面有多好”特別感興趣，這是一個問題）。

📄 示例	❗️問題	✅ Math-Verify	🛑 舊排行榜
因此，這些三角形之一的周長是 $14 + 7\sqrt{2}$ 英寸，以最簡根式形式表示。	提取失敗	`7*sqrt(2) + 14`	無
因此，無限幾何級數的和是 (\frac{7}{9})。	提取失敗	`7/9`	無
( p(n) ) 和 ( p(n+1) ) 共享一個大於 1 的公因子是 (\boxed{41})。	提取失敗	`4`	無
所以是 \frac{1}{9}	提取失敗	`1/9`	無
結論是他有 \boxed{5} 輛車	提取失敗	`5`	無

下一步，將 [ANSWER] 轉換為符號表示也出現了一些問題，這次與 SymPy 解析相關

📄 示例	❗️問題	✅ Math-Verify	🛑 舊排行榜
最終答案是 $2x + 4y + z - 19 = 0$。我希望它是正確的。	引數方程的部分解析	Eq(2x + 4y + z - 19, 0)	0
(23)	由於 LaTeX 邊框導致提取失敗	`23`	無
((- \infty, -14) \cup (-3, \infty)).	由於區間導致提取失敗	Union(Interval.open(-oo, -14), Interval.open(-3, oo))	無
100%	由於無效符號導致提取失敗	`1`	無
\begin{pmatrix}\frac{1}{50}&\frac{7}{50}\frac{7}{50}&\frac{49}{50}\end{pmatrix}	由於矩陣導致提取失敗	Matrix([[1/50, 7/50], [7/50, 49/50]])	無

在最後一步，當將提取的答案與目標表達式進行比較時，也出現了一些問題

📄 示例	❗️問題	✅ Math-Verify	🛑 舊排行榜
1/3 == 0.333333	不支援四捨五入	True	否 (False)
sqrt(1/2)7 == sqrt(0.5)7	不支援數值評估	True	否 (False)
k = 1 == 1	不支援變數賦值	True	否 (False)
Matrix.ones == Matrix.ones	不支援矩陣等價	True	否 (False)
{1} \union {1,4} == {1,4}	不支援集合比較	True	否 (False)

所有這些問題現在都透過新的 Math-Verify 解析器得到了徹底解決！

哪個模型最擅長數學？得益於更公平的評估，排行榜徹底洗牌

由於所有這些問題往往會累積，一些模型因此受到了嚴重影響，它們的效能被嚴重低估……因此我們刪除了之前的評估器並添加了 Math-Verify，這就像只修改了 3 行程式碼一樣簡單！（您也可以在您的數學評估中嘗試一下！）

這意味著重新評估自 6 月份以來提交的所有模型……這徹底改變了排行榜 MATH 子集中的前 20 個模型。

更改的影響

平均而言，模型在整體上多解決了 61 個問題，相當於整體提升了 4.66 分！

表現出最顯著改進的兩個子集都與代數相關（代數和初級代數），分別獲得了 8.27 和 6.93 的增長。在極端情況下，一些模型在這些子集上表現出近 90 分的改進。我們認為這些子集之所以能看到最大的改進，是因為它們經常涉及以集合（由於有多個解決方案的問題）和矩陣形式呈現的答案。Math-Verify 增強了對這兩種答案型別的處理，從而促成了這些顯著的增長。