GPT-OSS 模型來了……而且它們能效很高!

社群文章 釋出於 2025 年 8 月 7 日

OpenAI 期待已久的 GPT-OSS 模型終於來了——但它們執行需要多少能量呢?

image/png

近幾個月來,開源人工智慧競賽變得越來越激烈(以一種好的方式!),越來越多的組織與社群分享最先進的語言模型。本週,OpenAI 釋出了其自 GPT-2 以來的首批開源模型——20B 和 120B 模型,兩者都設計用於基於文字的推理、聊天和編碼。但它們消耗多少能量,與最近的其他模型相比如何?

為了測量能耗,我們使用了 Code Carbon 包來比較來自不同模型家族的 7 個大小相似的模型,包括 Phi、Gemma 和 Qwen。我們在一個擁有 8 個 Nvidia A100 GPU 的節點上執行這些模型,並從“Awesome GPT prompts”資料集中抽取了 100 個提示,將模型輸出配置為 25、50 和 100 個 token,以測量其變化。

我們報告了每個查詢的平均能耗(單位:瓦時),如下所示

GPT-OSS (20B) GPT-OSS (120B) Phi-4 (15B) Llama-3.1 (70B) Gemma-3 (27B) Qwen3 (30B) Command-A (110B)
25 個 token 0.49 1.84 4.03 4.91 5.30 8.15 8.95
50 個 token 0.98 3.83 6.79 7.38 8.67 10.48 10.18
100 個 token 2.02 8.31 7.93 9.68 10.46 17.37 18.96

我們可以看到 GPT-OSS 模型是我們樣本中能效最高的,其中 120B 模型每個查詢的能耗低於 LLaMa-70B 等較小模型,而 gpt-oss-20b 是全面效率最高的。作為參考,20b 模型處理 100 個 token 的查詢大約消耗 2 瓦時能量,這大致相當於一個 LED 燈泡執行 5-10 分鐘的電量,而擁有 30 億引數的 Qwen 3 模型,處理相同長度的查詢卻消耗 17 瓦時,即相同輸出長度的能耗是其 8 倍。

這種效率可以透過 GPT-OSS 模型內建的許多技術貢獻來解釋,這些貢獻有助於提高其能效。這包括諸如專家混合等功能,它減少了處理輸入所需的活動引數數量,從而降低了計算成本和能耗,以及注意力最佳化,提高了推理和記憶體效率(有關架構和實現的更詳細描述,請參閱 GPT-OSS 技術報告)。

image/png

兩個月前,OpenAI 執行長 Sam Altman 寫了一篇部落格文章,指出典型的 ChatGPT 請求消耗大約 0.34 瓦時能量(並消耗約 0.000085 加侖水)。雖然鑑於透明度顯著提高,我們仍然不能完全相信這些數字,但 GPT-OSS 模型的計算效率令人鼓舞。在實踐中,這種效率可以透過批處理和量化等最佳化進一步提高,這可以進一步最大化特定部署配置的效率。

image/png

新的 GPT-OSS 模型令人印象深刻的效率對人工智慧領域來說是個好訊息,因為它表明模型可以同時具有令人難以置信的效率和高效能。我們將在定於 9 月釋出的下一版 AI 能源得分排行榜中收錄這些模型以及我們測試過的所有其他模型。我們還在進行更深入的工作,探討批處理和輸出長度等因素如何影響能源效率。敬請關注此主題的未來工作!

致謝

感謝 Brigitte Tousignant 和 Yacine Jernite 對這篇博文的反饋和建議。

社群

太酷了!

哦,哇,這是一個超級有趣的願景!🔥

只是好奇注意力方面:您知道使用基本的 eager 注意力與最佳化的 Flash Attention 3 核心時是否存在能量差異嗎?(對於這個模型,後者目前只能在 H100 硬體上使用)。

·
文章作者

所有實驗都是在 A100 上執行的,所以我想它沒有使用最佳化的 Flash Attention,對吧?

註冊登入以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.