🐺🐦⬛ LLM 比較/測試:Phi-4、Qwen2 VL 72B Instruct、Aya Expanse 32B 在我更新的 MMLU-Pro CS 基準測試中
引言
我已更新我的 MMLU-Pro 計算機科學 LLM 基準測試結果,其中包含了來自最新測試模型的新資料:三個 Phi-4 變體(微軟官方權重,以及 Unsloth 的修復版 HF 和 GGUF 版本)、Qwen2 VL 72B Instruct 和 Aya Expanse 32B。
在新增這些新模型的同時,我透過刪除除主模型外所有表現始終優異的 QwQ-32B-Preview 變體,簡化了圖表。我還納入了 Claude、gemini-1.5-pro-002 和 Athene-V2-Chat 的第三次評估執行結果,由於 Athene 分數的波動,其排名有所下降。
以下是一個額外的視覺化,它將每個模型表示為 3D 條形圖,其中高度顯示 MMLU 分數(%),深度表示模型引數的十億數量,對於量化模型,條形圖分為一個全綵色前段(與量化大小成比例)和一個淺色後段(顯示與全精度(16 位)模型相比的記憶體節省)。
新測試模型
Phi-4
- Unsloth 修復的 Transformers 實現版在基準測試中效能差異很小,其中 GGUF 版本的準確率略高。需要進一步測試才能確定這種改進是統計學上顯著的趨勢還是隨機變化。
- 溫度設定對效能有顯著影響:設定為 0 時,響應一致但重複;設定為 1 時,輸出變得不穩定且不可預測。
- 與以前的版本相比,德語效能大幅提高。雖然它是一個小型模型,偶爾會導致過於字面的翻譯,但德語輸出的整體質量足以滿足大多數用途。
- 透過基本的提示工程技術可以完全規避審查。
- 仍然不確定 Phi-4 在實際使用中對通用任務的表現如何——但通常建議您如果可以的話,執行一個更大、更好的模型。
Qwen2 VL 72B Instruct
- 鑑於其分數相對較低,並且依賴於較舊的 Qwen2 系列而非更優秀的 2.5 架構,我期待 Qwen2.5 VL 72B 模型的釋出。
Aya Expanse 32B
- 雖然這個模型在圖表上顯示的分數最低,但請記住,我只包含了分數高於 50% 的模型。還有其他更差的模型低於此閾值,根本沒有出現在視覺化中。
- 它的主要優勢是支援 23 種語言,這使其成為當您需要多語言能力且沒有更好替代方案時的可靠選擇。當然,如果您的目標語言有更好的模型支援,請改用該模型。
關於基準測試
MMLU-Pro 基準測試是對大型語言模型在各個類別(包括計算機科學、數學、物理、化學等)進行的綜合評估。它旨在評估模型在廣泛學科中理解和應用知識的能力,提供衡量通用智慧的可靠標準。雖然它是一個多項選擇題測試,但與其前身 MMLU 中的 4 個選項不同,現在每個問題有 10 個選項,這大大降低了偶然答對的機率。此外,其重點越來越傾向於複雜的推理任務,而非純粹的事實知識。
對於我的基準測試,我目前僅限於計算機科學類別,其中包含 410 個問題。這一務實決定基於幾個因素:首先,我特別重視我的日常工作環境中模型的響應,因為我經常在這一背景下使用這些模型。其次,在消費級硬體上執行本地模型存在計算時間上的實際限制——單個執行對於大型模型而言已經需要數小時,而我通常會進行至少兩次執行以確保一致性。
與僅報告單一分數的典型基準測試不同,我對每個模型進行多次測試執行以捕捉效能的可變性。這種全面的方法提供了對每個模型真實能力的更準確和細緻的理解。透過對每個模型執行至少兩次基準測試執行,我建立了對效能水平和一致性的可靠評估。結果顯示了標準差的誤差條,說明了效能在不同測試執行中的變化情況。
僅本研究的基準測試就耗時超過 103 小時。如果增加更多類別或執行次數,可用資源下的測試時間會變得非常長,以至於在研究完成時,測試的模型可能已經過時。因此,建立實際的框架條件和邊界對於在合理的時間範圍內獲得有意義的結果至關重要。
詳細結果
以下是完整的表格,包括先前報告的結果:
| 模型 | HF 主模型名稱 | HF 草稿模型名稱(推測解碼) | 大小 | 格式 | API | GPU | GPU 記憶體 | 執行 | 時長 | 總計 | % | 正確隨機猜測 | 提示詞 token | 每秒令牌數 | 完成令牌數 | 每秒令牌數 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| claude-3-5-sonnet-20241022 | - | - | - | - | Anthropic | - | - | 1/3 | 31 分 50 秒 | 340/410 | 82.93% | 694458 | 362.78 | 97438 | 50.90 | |
| claude-3-5-sonnet-20241022 | - | - | - | - | Anthropic | - | - | 2/3 | 31 分 39 秒 | 338/410 | 82.44% | 694458 | 364.82 | 97314 | 51.12 | |
| 🆕 claude-3-5-sonnet-20241022 | - | - | - | - | Anthropic | - | - | 3/3 | 28 分 56 秒 | 337/410 | 82.20% | 867478 | 498.45 | 84785 | 48.72 | |
| gemini-1.5-pro-002 | - | - | - | - | Gemini | - | - | 1/3 | 31 分 7 秒 | 335/410 | 81.71% | 648675 | 346.82 | 78311 | 41.87 | |
| 🆕 gemini-1.5-pro-002 | - | - | - | - | Gemini | - | - | 2/3 | 29 分 52 秒 | 333/410 | 81.22% | 648675 | 361.38 | 77030 | 42.91 | |
| gemini-1.5-pro-002 | - | - | - | - | Gemini | - | - | 3/3 | 30 分 40 秒 | 327/410 | 79.76% | 648675 | 351.73 | 76063 | 41.24 | |
| QwQ-32B-Preview (8.0bpw EXL2, max_tokens=16384) | bartowski/QwQ-32B-Preview-exl2_8_0 | Qwen/Qwen2.5-Coder-0.5B-Instruct | 32B | EXL2 | TabbyAPI | RTX 6000 | 38436MiB | 1/2 | 2 小時 3 分 30 秒 | 325/410 | 79.27% | 0/2, 0.00% | 656716 | 88.58 | 327825 | 44.22 |
| QwQ-32B-Preview (8.0bpw EXL2, max_tokens=16384) | bartowski/QwQ-32B-Preview-exl2_8_0 | Qwen/Qwen2.5-Coder-0.5B-Instruct | 32B | EXL2 | TabbyAPI | RTX 6000 | 38436MiB | 2/2 | 2 小時 3 分 35 秒 | 324/410 | 79.02% | 656716 | 88.52 | 343440 | 46.29 | |
| Athene-V2-Chat (72B, 4.65bpw EXL2, Q4 快取) | wolfram/Athene-V2-Chat-4.65bpw-h6-exl2 | - | 72B | EXL2 | TabbyAPI | RTX 6000 | 44496MiB | 1/3 | 2 小時 13 分 5 秒 | 326/410 | 79.51% | 656716 | 82.21 | 142256 | 17.81 | |
| Athene-V2-Chat (72B, 4.65bpw EXL2, Q4 快取) | wolfram/Athene-V2-Chat-4.65bpw-h6-exl2 | - | 72B | EXL2 | TabbyAPI | RTX 6000 | 44496MiB | 2/3 | 2 小時 14 分 53 秒 | 317/410 | 77.32% | 656716 | 81.11 | 143659 | 17.74 | |
| 🆕 Athene-V2-Chat (72B, 4.65bpw EXL2, Q4 快取) | wolfram/Athene-V2-Chat-4.65bpw-h6-exl2 | - | 72B | EXL2 | TabbyAPI | RTX 6000 | 44496MiB | 3/3 | 1 小時 49 分 40 秒 | 312/410 | 76.10% | 805136 | 122.30 | 115284 | 17.51 | |
| Qwen2.5-72B-Instruct (4.65bpw EXL2, Q4 快取) | LoneStriker/Qwen2.5-72B-Instruct-4.65bpw-h6-exl2 | - | 72B | EXL2 | TabbyAPI | 2x RTX 3090 | 41150MiB | 1/2 | 3 小時 7 分 58 秒 | 320/410 | 78.05% | 656716 | 58.21 | 139499 | 12.36 | |
| Qwen2.5-72B-Instruct (4.65bpw EXL2, Q4 快取) | LoneStriker/Qwen2.5-72B-Instruct-4.65bpw-h6-exl2 | - | 72B | EXL2 | TabbyAPI | 2x RTX 3090 | 41150MiB | 2/2 | 3 小時 5 分 19 秒 | 319/410 | 77.80% | 656716 | 59.04 | 138135 | 12.42 | |
| DeepSeek-V3 | deepseek-ai/DeepSeek-V3 | - | 671B | HF | 深度求索 | - | - | 1/4 | 20 分 22 秒 | 320/410 | 78.05% | 628029 | 512.38 | 66807 | 54.50 | |
| DeepSeek-V3 | deepseek-ai/DeepSeek-V3 | - | 671B | HF | 深度求索 | - | - | 2/4 | 27 分 43 秒 | 320/410 | 78.05% | 628029 | 376.59 | 66874 | 40.10 | |
| DeepSeek-V3 | deepseek-ai/DeepSeek-V3 | - | 671B | HF | 深度求索 | - | - | 3/4 | 19 分 45 秒 | 319/410 | 77.80% | 628029 | 528.39 | 64470 | 54.24 | |
| DeepSeek-V3 | deepseek-ai/DeepSeek-V3 | - | 671B | HF | 深度求索 | - | - | 4/4 | 19 分 45 秒 | 319/410 | 77.80% | 628029 | 375.73 | 69531 | 41.60 | |
| gpt-4o-2024-08-06 | - | - | - | - | OpenAI | - | - | 1/2 | 34 分 54 秒 | 320/410 | 78.05% | 1/2, 50.00% | 631448 | 300.79 | 99103 | 47.21 |
| gpt-4o-2024-08-06 | - | - | - | - | OpenAI | - | - | 2/2 | 42 分 41 秒 | 316/410 | 77.07% | 1/3, 33.33% | 631448 | 246.02 | 98466 | 38.36 |
| mistral-large-2407 (123B) | mistralai/Mistral-Large-Instruct-2407 | - | 123B | HF | Mistral | - | - | 1/2 | 40 分 23 秒 | 310/410 | 75.61% | 696798 | 287.13 | 79444 | 32.74 | |
| mistral-large-2407 (123B) | mistralai/Mistral-Large-Instruct-2407 | - | 123B | HF | Mistral | - | - | 2/2 | 46 分 55 秒 | 308/410 | 75.12% | 0/1, 0.00% | 696798 | 247.21 | 75971 | 26.95 |
| Llama-3.1-405B-Instruct-FP8 | meta-llama/Llama-3.1-405B-Instruct-FP8 | - | 405B | HF | IONOS | - | - | 1/2 | 2 小時 5 分 28 秒 | 311/410 | 75.85% | 648580 | 86.11 | 79191 | 10.51 | |
| Llama-3.1-405B-Instruct-FP8 | meta-llama/Llama-3.1-405B-Instruct-FP8 | - | 405B | HF | IONOS | - | - | 2/2 | 2 小時 10 分 19 秒 | 307/410 | 74.88% | 648580 | 82.90 | 79648 | 10.18 | |
| mistral-large-2411 (123B) | mistralai/Mistral-Large-Instruct-2411 | - | 123B | HF | Mistral | - | - | 1/2 | 41 分 46 秒 | 302/410 | 73.66% | 1/3, 33.33% | 696798 | 277.70 | 82028 | 32.69 |
| mistral-large-2411 (123B) | mistralai/Mistral-Large-Instruct-2411 | - | 123B | HF | Mistral | - | - | 2/2 | 32 分 47 秒 | 300/410 | 73.17% | 0/1, 0.00% | 696798 | 353.53 | 77998 | 39.57 |
| chatgpt-4o-latest @ 2024-11-18 | - | - | - | - | OpenAI | - | - | 1/2 | 28 分 17 秒 | 302/410 | 73.66% | 2/4, 50.00% | 631448 | 371.33 | 146558 | 86.18 |
| chatgpt-4o-latest @ 2024-11-18 | - | - | - | - | OpenAI | - | - | 2/2 | 28 分 31 秒 | 298/410 | 72.68% | 2/2, 100.00% | 631448 | 368.19 | 146782 | 85.59 |
| gpt-4o-2024-11-20 | - | - | - | - | OpenAI | - | - | 1/2 | 25 分 35 秒 | 296/410 | 72.20% | 1/7, 14.29% | 631448 | 410.38 | 158694 | 103.14 |
| gpt-4o-2024-11-20 | - | - | - | - | OpenAI | - | - | 2/2 | 26 分 10 秒 | 294/410 | 71.71% | 1/7, 14.29% | 631448 | 400.95 | 160378 | 101.84 |
| Llama-3.3-70B-Instruct (4.0bpw EXL2) | LoneStriker/Llama-3.3-70B-Instruct-4.0bpw-h6-exl2 | - | 70B | EXL2 | TabbyAPI | RTX 6000 | 47148MiB | 1/2 | 2 小時 2 分 33 秒 | 293/410 | 71.46% | 648580 | 88.15 | 87107 | 11.84 | |
| Llama-3.3-70B-Instruct (4.0bpw EXL2) | LoneStriker/Llama-3.3-70B-Instruct-4.0bpw-h6-exl2 | - | 70B | EXL2 | TabbyAPI | RTX 6000 | 47148MiB | 2/2 | 1 小時 33 分 59 秒 | 293/410 | 71.46% | 534360 | 94.70 | 89510 | 15.86 | |
| Llama-3.1-70B-Instruct | meta-llama/Llama-3.1-70B-Instruct | - | 70B | HF | IONOS | - | - | 1/2 | 41 分 12 秒 | 291/410 | 70.98% | 3/12, 25.00% | 648580 | 261.88 | 102559 | 41.41 |
| Llama-3.1-70B-Instruct | meta-llama/Llama-3.1-70B-Instruct | - | 70B | HF | IONOS | - | - | 2/2 | 39 分 48 秒 | 287/410 | 70.00% | 3/14, 21.43% | 648580 | 271.12 | 106644 | 44.58 |
| Llama-3.1-Nemotron-70B-Instruct (4.25bpw EXL2) | bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-exl2_4_25 | - | 70B | EXL2 | TabbyAPI | RTX 6000 | 40104MiB | 1/2 | 2 小時 13 分 3 秒 | 290/410 | 70.73% | 640380 | 80.18 | 157235 | 19.69 | |
| Llama-3.1-Nemotron-70B-Instruct (4.25bpw EXL2) | bartowski/Llama-3.1-Nemotron-70B-Instruct-HF-exl2_4_25 | - | 70B | EXL2 | TabbyAPI | RTX 6000 | 40104MiB | 2/2 | 2 小時 13 分 15 秒 | 287/410 | 70.00% | 0/1, 0.00% | 640380 | 80.07 | 157471 | 19.69 |
| QVQ-72B-Preview (4.65bpw EXL2, max_tokens=16384) | wolfram/QVQ-72B-Preview-4.65bpw-h6-exl2 | Qwen/Qwen2.5-Coder-0.5B-Instruct | 72B | EXL2 | TabbyAPI | RTX 6000 | 46260MiB | 1/2 | 3 小時 43 分 12 秒 | 290/410 | 70.73% | 1/3, 33.33% | 656716 | 49.02 | 441187 | 32.93 |
| QVQ-72B-Preview (4.65bpw EXL2, max_tokens=16384) | wolfram/QVQ-72B-Preview-4.65bpw-h6-exl2 | Qwen/Qwen2.5-Coder-0.5B-Instruct | 72B | EXL2 | TabbyAPI | RTX 6000 | 46260MiB | 2/2 | 3 小時 47 分 29 秒 | 284/410 | 69.27% | 0/2, 0.00% | 656716 | 48.10 | 450363 | 32.99 |
| gemini-1.5-flash-002 | - | - | - | - | Gemini | - | - | 1/2 | 13 分 19 秒 | 288/410 | 70.24% | 1/6, 16.67% | 648675 | 808.52 | 80535 | 100.38 |
| gemini-1.5-flash-002 | - | - | - | - | Gemini | - | - | 2/2 | 22 分 30 秒 | 285/410 | 69.51% | 2/7, 28.57% | 648675 | 479.42 | 80221 | 59.29 |
| Llama-3.2-90B-Vision-Instruct | meta-llama/Llama-3.2-90B-Vision-Instruct | - | 90B | HF | Azure | - | - | 1/2 | 33 分 6 秒 | 289/410 | 70.49% | 4/7, 57.14% | 640380 | 321.96 | 88997 | 44.74 |
| Llama-3.2-90B-Vision-Instruct | meta-llama/Llama-3.2-90B-Vision-Instruct | - | 90B | HF | Azure | - | - | 2/2 | 31 分 31 秒 | 281/410 | 68.54% | 2/5, 40.00% | 640380 | 338.10 | 85381 | 45.08 |
| Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) | bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 | Qwen/Qwen2.5-Coder-3B-Instruct | 32B | EXL2 | TabbyAPI | RTX 6000 | 45880MiB | 1/7 | 41 分 59 秒 | 289/410 | 70.49% | 656716 | 260.29 | 92126 | 36.51 | |
| Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) | bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 | Qwen/Qwen2.5-Coder-0.5B-Instruct | 32B | EXL2 | TabbyAPI | RTX 6000 | 40036MiB | 2/7 | 34 分 24 秒 | 286/410 | 69.76% | 656716 | 317.48 | 89487 | 43.26 | |
| Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) | bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 | Qwen/Qwen2.5-Coder-3B-Instruct | 32B | EXL2 | TabbyAPI | RTX 6000 | 45880MiB | 3/7 | 41 分 27 秒 | 283/410 | 69.02% | 0/1, 0.00% | 656716 | 263.62 | 90349 | 36.27 |
| Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) | bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 | bartowski/Qwen2.5-Coder-7B-Instruct-exl2_8_0 | 32B | EXL2 | TabbyAPI | RTX 6000 | 43688MiB | 4/7 | 42 分 32 秒 | 283/410 | 69.02% | 0/1, 0.00% | 656716 | 256.77 | 90899 | 35.54 |
| Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) | bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 | bartowski/Qwen2.5-Coder-7B-Instruct-exl2_8_0 | 32B | EXL2 | TabbyAPI | RTX 6000 | 43688MiB | 5/7 | 44 分 34 秒 | 282/410 | 68.78% | 0/1, 0.00% | 656716 | 245.24 | 96470 | 36.03 |
| Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) | bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 | - | 32B | EXL2 | TabbyAPI | RTX 6000 | 38620MiB | 6/7 | 1 小時 2 分 8 秒 | 282/410 | 68.78% | 656716 | 175.98 | 92767 | 24.86 | |
| Qwen2.5-Coder-32B-Instruct (8.0bpw EXL2) | bartowski/Qwen2.5-Coder-32B-Instruct-exl2_8_0 | Qwen/Qwen2.5-Coder-0.5B-Instruct | 32B | EXL2 | TabbyAPI | RTX 6000 | 40036MiB | 7/7 | 34 分 56 秒 | 280/410 | 68.29% | 656716 | 312.66 | 91926 | 43.76 | |
| Mistral-Large-Instruct-2411 (123B, 3.0bpw EXL2) | MikeRoz/mistralai_Mistral-Large-Instruct-2411-3.0bpw-h6-exl2 | - | 123B | EXL2 | TabbyAPI | RTX 6000 | 47068MiB | 1/2 | 1 小時 26 分 26 秒 | 284/410 | 69.27% | 1/3, 33.33% | 696798 | 134.23 | 79925 | 15.40 |
| Mistral-Large-Instruct-2411 (123B, 3.0bpw EXL2) | MikeRoz/mistralai_Mistral-Large-Instruct-2411-3.0bpw-h6-exl2 | - | 123B | EXL2 | TabbyAPI | RTX 6000 | 47068MiB | 2/2 | 1 小時 26 分 10 秒 | 275/410 | 67.07% | 0/2, 0.00% | 696798 | 134.67 | 79778 | 15.42 |
| 🆕 Phi-4 (14B, Unsloth, GGUF) | unsloth/phi-4-GGUF | - | 14B | GGUF | llama.cpp | RTX 6000 | 31978MiB | 1/2 | 1 小時 19 分 51 秒 | 278/410 | 67.80% | 1/6, 16.67% | 639591 | 133.40 | 133610 | 27.87 |
| 🆕 Phi-4 (14B, Unsloth, GGUF) | unsloth/phi-4-GGUF | - | 14B | GGUF | llama.cpp | RTX 6000 | 31978MiB | 2/2 | 1 小時 19 分 41 秒 | 278/410 | 67.80% | 1/6, 16.67% | 639591 | 133.67 | 133610 | 27.92 |
| 🆕 Phi-4 (14B, Unsloth, HF) | unsloth/phi-4 | - | 14B | HF | TabbyAPI | RTX 6000 | 1/2 | 1 小時 38 分 29 秒 | 274/410 | 66.83% | 1/3, 33.33% | 635081 | 107.42 | 113731 | 19.24 | |
| 🆕 Phi-4 (14B, Unsloth, HF) | unsloth/phi-4 | - | 14B | HF | TabbyAPI | RTX 6000 | 2/2 | 1 小時 39 分 32 秒 | 273/410 | 66.59% | 1/3, 33.33% | 635081 | 106.29 | 113712 | 19.03 | |
| 🆕 Phi-4 (14B, Microsoft, HF) | microsoft/phi-4 | - | 14B | HF | TabbyAPI | RTX 6000 | 31394MiB | 1/2 | 1 小時 7 分 44 秒 | 272/410 | 66.34% | 1/3, 33.33% | 635081 | 156.15 | 113358 | 27.87 |
| 🆕 Phi-4 (14B, Microsoft, HF) | microsoft/phi-4 | - | 14B | HF | TabbyAPI | RTX 6000 | 31394MiB | 2/2 | 1 小時 7 分 44 秒 | 271/410 | 66.10% | 1/3, 33.33% | 635081 | 156.10 | 113384 | 27.87 |
| Mistral-Large-Instruct-2407 (123B, 2.75bpw EXL2) | turboderp/Mistral-Large-Instruct-2407-123B-exl2_2.75bpw | - | 123B | EXL2 | TabbyAPI | RTX 6000 | 45096MiB | 1/2 | 1 小時 8 分 8 秒 | 271/410 | 66.10% | 696798 | 170.29 | 66670 | 16.29 | |
| Mistral-Large-Instruct-2407 (123B, 2.75bpw EXL2) | turboderp/Mistral-Large-Instruct-2407-123B-exl2_2.75bpw | - | 123B | EXL2 | TabbyAPI | RTX 6000 | 45096MiB | 2/2 | 1 小時 10 分 38 秒 | 268/410 | 65.37% | 1/3, 33.33% | 696798 | 164.23 | 69182 | 16.31 |
| 🆕 Qwen2-VL-72B-Instruct (4.5bpw EXL2) | turboderp/Qwen2-VL-72B-Instruct-exl2_4.5bpw | - | 72B | EXL2 | TabbyAPI | RTX 6000 | 43554MiB | 1/2 | 1 小時 10 分 51 秒 | 255/410 | 62.20% | 30/3, 0.00% | 656716 | 154.36 | 71752 | 16.87 |
| 🆕 Qwen2-VL-72B-Instruct (4.5bpw EXL2) | turboderp/Qwen2-VL-72B-Instruct-exl2_4.5bpw | - | 72B | EXL2 | TabbyAPI | RTX 6000 | 43554MiB | 2/2 | 1 小時 26 分 40 秒 | 255/410 | 62.20% | 1/6, 16.67% | 656716 | 126.20 | 88249 | 16.96 |
| Mistral-Large-Instruct-2411 (123B, 2.75bpw EXL2) | wolfram/Mistral-Large-Instruct-2411-2.75bpw-h6-exl2 | - | 123B | EXL2 | TabbyAPI | RTX 6000 | 45096MiB | 1/2 | 1 小時 11 分 50 秒 | 267/410 | 65.12% | 1/4, 25.00% | 696798 | 161.53 | 70538 | 16.35 |
| Mistral-Large-Instruct-2411 (123B, 2.75bpw EXL2) | wolfram/Mistral-Large-Instruct-2411-2.75bpw-h6-exl2 | - | 123B | EXL2 | TabbyAPI | RTX 6000 | 45096MiB | 2/2 | 1 小時 13 分 50 秒 | 243/410 | 59.27% | 0/4, 0.00% | 696798 | 157.18 | 72718 | 16.40 |
| Falcon3-10B-Instruct | tiiuae/Falcon3-10B-Instruct | - | 10B | HF | Ollama | RTX 6000 | 20906MiB | 1/2 | 35 分 15 秒 | 251/410 | 61.22% | 2/5, 40.00% | 702578 | 331.57 | 75501 | 35.63 |
| Falcon3-10B-Instruct | tiiuae/Falcon3-10B-Instruct | - | 10B | HF | Ollama | RTX 6000 | 20906MiB | 2/2 | 35 分 21 秒 | 251/410 | 61.22% | 2/5, 40.00% | 702578 | 330.66 | 75501 | 35.53 |
| mistral-small-2409 (22B) | mistralai/Mistral-Small-Instruct-2409 | - | 22B | HF | Mistral | - | - | 1/2 | 25 分 3 秒 | 243/410 | 59.27% | 1/4, 25.00% | 696798 | 462.38 | 73212 | 48.58 |
| mistral-small-2409 (22B) | mistralai/Mistral-Small-Instruct-2409 | - | 22B | HF | Mistral | - | - | 2/2 | 20 分 45 秒 | 239/410 | 58.29% | 1/4, 25.00% | 696798 | 558.10 | 76017 | 60.89 |
| 🆕 Aya-Expanse-32B (8.0bpw EXL2) | lucyknada/CohereForAI_aya-expanse-32b-exl2_8.0bpw | - | 32B | EXL2 | TabbyAPI | RTX 6000 | 33686MiB | 1/2 | 43 分 18 秒 | 212/410 | 51.71% | 0/1, 0.00% | 661930 | 254.04 | 60728 | 23.31 |
| 🆕 Aya-Expanse-32B (8.0bpw EXL2) | lucyknada/CohereForAI_aya-expanse-32b-exl2_8.0bpw | - | 32B | EXL2 | TabbyAPI | RTX 6000 | 33686MiB | 2/2 | 42 分 27 秒 | 211/410 | 51.46% | 0/4, 0.00% | 661930 | 259.50 | 59557 | 23.35 |
- 模型:模型名稱(含相關引數和設定詳情)
- HF 主模型名稱:Hugging Face 上列出的被測模型的完整名稱
- HF 草稿模型名稱(推測解碼):用於推測解碼的草稿模型(如果適用)
- 大小:引數數量
- 格式:模型格式型別(HF、EXL2 等)
- API:服務提供商(TabbyAPI 表示本地部署)
- GPU:用於本次基準測試執行的顯示卡
- GPU 記憶體:分配給模型和配置的視訊記憶體
- 執行:基準測試執行序列號
- 持續時間:基準測試總執行時間
- 總計:正確答案數量(決定排名!)
- %:正確答案百分比
- 正確隨機猜測:當 MMLU-Pro 無法明確識別模型的答案選項時,它會預設為隨機猜測,並報告這些隨機猜測的數量及其準確性(高比例的隨機猜測表明在遵循響應格式方面存在問題)
- 提示令牌數:輸入文字的令牌計數
- 每秒令牌數:每秒處理的令牌數
- 完成令牌數:生成響應的令牌計數
- 每秒令牌數:每秒生成的令牌數
Wolfram Ravenwolf 是一位德國人工智慧工程師,也是一位國際活躍的顧問和著名研究員,他對本地語言模型尤其充滿熱情。您可以在 X 和 Bluesky 上關注他,在 HF 和 Reddit 上閱讀他之前的 LLM 測試和比較,在 Hugging Face 上檢視他的模型,在 Ko-fi 上給他小費,或者預訂他的諮詢服務。
