使用 Math-Verify 修正 Open LLM 排行榜
3 周前,我們展示了正確評估 LLM 在數學問題上表現的難度,並引入了 Math-Verify,這是一個在數學方面驗證模型的更好解決方案(更多資訊請閱讀公告)!
今天,我們很高興地宣佈,我們已使用 Math-Verify 徹底重新評估了提交給 Open LLM 排行榜的所有 3,751 個模型,以實現更公平、更可靠的模型比較!
為什麼 Open LLM 排行榜上的數學評估出了問題
Open LLM 排行榜 是 Hugging Face Hub 上使用最廣泛的排行榜:它比較了開放式大型語言模型 (LLM) 在各種任務上的效能。其中一項任務,稱為 MATH-Hard,專門針對數學問題:它評估 LLM 解決高中和大學水平數學問題的能力。它使用來自 Hendrycks MATH 資料集的 1,324 個最高難度問題(Level 5),分佈在 7 個主題(微積分前、初級代數、代數、中級代數、計數/機率和數論)中,採用 5 次取樣法(在提示中提供模型 5 個示例,以展示其應如何回答)。
一個典型的問題看起來像這樣
For all real numbers $r$ and $s$, define the mathematical operation $\#$ such that the following conditions apply: $r\ \#\ 0 = r, r\ \#\ s = s\ \#\ r$, and $(r + 1)\ \#\ s = (r\ \#\ s) + s + 1$. What is the value of $11\ \#\ 5$?
答案將是
71
在排行榜中,模型必須以一個非常特定的字串結束其答案(遵循 Minerva-Math 論文)
“Final answer is [ANSWER]. I hope it is correct.”
排行榜隨後會嘗試使用 SymPy 解析 [ANSWER]
,將其轉換為符號表示(如果需要,簡化值),最後將其與黃金目標進行比較。
然而,使用者報告了上述一些問題。
首先,一個反覆出現的問題是某些模型無法遵循示例中預期的答案格式:它們輸出其他句子來引入其答案。由於未遵循格式,即使答案實際上是正確的,也被標記為錯誤!(如果您對“模型在數學方面有多好”特別感興趣,這是一個問題)。
📄 示例 | ❗️問題 | ✅ Math-Verify | 🛑 舊排行榜 |
---|---|---|---|
因此,這些三角形之一的周長是 $14 + 7\sqrt{2}$ 英寸,以最簡根式形式表示。 | 提取失敗 | 7*sqrt(2) + 14 |
無 |
因此,無限幾何級數的和是 (\frac{7}{9})。 | 提取失敗 | 7/9 |
無 |
( p(n) ) 和 ( p(n+1) ) 共享一個大於 1 的公因子是 (\boxed{41})。 | 提取失敗 | 4 |
無 |
所以是 \frac{1}{9} | 提取失敗 | 1/9 |
無 |
結論是他有 \boxed{5} 輛車 | 提取失敗 | 5 |
無 |
下一步,將 [ANSWER]
轉換為符號表示也出現了一些問題,這次與 SymPy 解析相關
📄 示例 | ❗️問題 | ✅ Math-Verify | 🛑 舊排行榜 |
---|---|---|---|
最終答案是 $2x + 4y + z - 19 = 0$。我希望它是正確的。 | 引數方程的部分解析 | Eq(2x + 4y + z - 19, 0) | 0 |
(23) | 由於 LaTeX 邊框導致提取失敗 | 23 |
無 |
((- \infty, -14) \cup (-3, \infty)). | 由於區間導致提取失敗 | Union(Interval.open(-oo, -14), Interval.open(-3, oo)) | 無 |
100% | 由於無效符號導致提取失敗 | 1 |
無 |
\begin{pmatrix}\frac{1}{50}&\frac{7}{50}\frac{7}{50}&\frac{49}{50}\end{pmatrix} | 由於矩陣導致提取失敗 | Matrix([[1/50, 7/50], [7/50, 49/50]]) | 無 |
在最後一步,當將提取的答案與目標表達式進行比較時,也出現了一些問題
📄 示例 | ❗️問題 | ✅ Math-Verify | 🛑 舊排行榜 |
---|---|---|---|
1/3 == 0.333333 | 不支援四捨五入 | True | 否 (False) |
sqrt(1/2)*7 == sqrt(0.5)*7 | 不支援數值評估 | True | 否 (False) |
k = 1 == 1 | 不支援變數賦值 | True | 否 (False) |
Matrix.ones == Matrix.ones | 不支援矩陣等價 | True | 否 (False) |
{1} \union {1,4} == {1,4} | 不支援集合比較 | True | 否 (False) |
所有這些問題現在都透過新的 Math-Verify 解析器得到了徹底解決!
哪個模型最擅長數學?得益於更公平的評估,排行榜徹底洗牌
由於所有這些問題往往會累積,一些模型因此受到了嚴重影響,它們的效能被嚴重低估……因此我們刪除了之前的評估器並添加了 Math-Verify,這就像只修改了 3 行程式碼一樣簡單!(您也可以在您的數學評估中嘗試一下!)
這意味著重新評估自 6 月份以來提交的所有模型……這徹底改變了排行榜 MATH 子集中的前 20 個模型。
更改的影響
平均而言,模型在整體上多解決了 61 個問題,相當於整體提升了 4.66 分!
表現出最顯著改進的兩個子集都與代數相關(代數和初級代數),分別獲得了 8.27 和 6.93 的增長。在極端情況下,一些模型在這些子集上表現出近 90 分的改進。我們認為這些子集之所以能看到最大的改進,是因為它們經常涉及以集合(由於有多個解決方案的問題)和矩陣形式呈現的答案。Math-Verify 增強了對這兩種答案型別的處理,從而促成了這些顯著的增長。
模型家族變化
我們最初在檢查 Qwen 模型時發現了數學評估問題,這些模型的得分異常低,與其自我報告的效能相比。在引入 Math-Verify 後,這些模型的得分翻了一倍多,顯示出之前對效能的嚴重低估。
但 Qwen 模型並非個例。另一個受影響的主要家族是 DeepSeek。切換到 Math-Verify 後,DeepSeek 模型的得分幾乎翻了兩倍!這是因為它們的答案通常被包含在方框 (\boxed{})
符號中,而舊的評估器無法提取。
MATH-Hard 排行榜的變化
正如開頭所述,前 20 名排名發生了顯著變化,Nvidia 的 AceMath 模型現在主導著 MATH-Hard 排行榜。此次變化的其他主要受益者是 Qwen 衍生模型,它們現在幾乎是 AceMath 之後唯一的模型。以下是比較新舊前 20 名排行榜排名的完整表格
排行榜的變化
最後,我們檢查了整體排行榜結果的演變。雖然前四名保持不變,但其餘排名發生了顯著變化。由於多個 Qwen 衍生模型在 MATH 子集中的崛起,Qwen 模型在整體結果中進入前 20 名的數量進一步增加。
許多其他模型也完全躍升了排名,上升了 200 個或更多名次!您可以在 Open LLM 排行榜上檢視更詳細的結果。
總結
Math-Verify 的引入顯著提高了 Open LLM 排行榜評估的準確性和公平性。這導致了排行榜的洗牌,許多模型的得分有了顯著提高。
我們鼓勵所有開發人員和研究人員在自己的數學評估中採用 Math-Verify。透過這樣做,您可以確保您的模型得到更可靠的結果評估。此外,我們邀請您探索更新後的排名,看看您最喜歡的模型的效能是如何變化的。