GPT-OSS 模型來了……而且它們能效很高！

社群文章釋出於 2025 年 8 月 7 日

OpenAI 期待已久的 GPT-OSS 模型終於來了——但它們執行需要多少能量呢？

近幾個月來，開源人工智慧競賽變得越來越激烈（以一種好的方式！），越來越多的組織與社群分享最先進的語言模型。本週，OpenAI 釋出了其自 GPT-2 以來的首批開源模型——20B 和 120B 模型，兩者都設計用於基於文字的推理、聊天和編碼。但它們消耗多少能量，與最近的其他模型相比如何？

為了測量能耗，我們使用了 Code Carbon 包來比較來自不同模型家族的 7 個大小相似的模型，包括 Phi、Gemma 和 Qwen。我們在一個擁有 8 個 Nvidia A100 GPU 的節點上執行這些模型，並從“Awesome GPT prompts”資料集中抽取了 100 個提示，將模型輸出配置為 25、50 和 100 個 token，以測量其變化。

我們報告了每個查詢的平均能耗（單位：瓦時），如下所示

	GPT-OSS (20B)	GPT-OSS (120B)	Phi-4 (15B)	Llama-3.1 (70B)	Gemma-3 (27B)	Qwen3 (30B)	Command-A (110B)
25 個 token	0.49	1.84	4.03	4.91	5.30	8.15	8.95
50 個 token	0.98	3.83	6.79	7.38	8.67	10.48	10.18
100 個 token	2.02	8.31	7.93	9.68	10.46	17.37	18.96

我們可以看到 GPT-OSS 模型是我們樣本中能效最高的，其中 120B 模型每個查詢的能耗低於 LLaMa-70B 等較小模型，而 gpt-oss-20b 是全面效率最高的。作為參考，20b 模型處理 100 個 token 的查詢大約消耗 2 瓦時能量，這大致相當於一個 LED 燈泡執行 5-10 分鐘的電量，而擁有 30 億引數的 Qwen 3 模型，處理相同長度的查詢卻消耗 17 瓦時，即相同輸出長度的能耗是其 8 倍。

這種效率可以透過 GPT-OSS 模型內建的許多技術貢獻來解釋，這些貢獻有助於提高其能效。這包括諸如專家混合等功能，它減少了處理輸入所需的活動引數數量，從而降低了計算成本和能耗，以及注意力最佳化，提高了推理和記憶體效率（有關架構和實現的更詳細描述，請參閱 GPT-OSS 技術報告）。

兩個月前，OpenAI 執行長 Sam Altman 寫了一篇部落格文章，指出典型的 ChatGPT 請求消耗大約 0.34 瓦時能量（並消耗約 0.000085 加侖水）。雖然鑑於透明度顯著提高，我們仍然不能完全相信這些數字，但 GPT-OSS 模型的計算效率令人鼓舞。在實踐中，這種效率可以透過批處理和量化等最佳化進一步提高，這可以進一步最大化特定部署配置的效率。

新的 GPT-OSS 模型令人印象深刻的效率對人工智慧領域來說是個好訊息，因為它表明模型可以同時具有令人難以置信的效率和高效能。我們將在定於 9 月釋出的下一版 AI 能源得分排行榜中收錄這些模型以及我們測試過的所有其他模型。我們還在進行更深入的工作，探討批處理和輸出長度等因素如何影響能源效率。敬請關注此主題的未來工作！