GPT-OSS 模型來了……而且它們能效很高!
OpenAI 期待已久的 GPT-OSS 模型終於來了——但它們執行需要多少能量呢?
近幾個月來,開源人工智慧競賽變得越來越激烈(以一種好的方式!),越來越多的組織與社群分享最先進的語言模型。本週,OpenAI 釋出了其自 GPT-2 以來的首批開源模型——20B 和 120B 模型,兩者都設計用於基於文字的推理、聊天和編碼。但它們消耗多少能量,與最近的其他模型相比如何?
為了測量能耗,我們使用了 Code Carbon 包來比較來自不同模型家族的 7 個大小相似的模型,包括 Phi、Gemma 和 Qwen。我們在一個擁有 8 個 Nvidia A100 GPU 的節點上執行這些模型,並從“Awesome GPT prompts”資料集中抽取了 100 個提示,將模型輸出配置為 25、50 和 100 個 token,以測量其變化。
我們報告了每個查詢的平均能耗(單位:瓦時),如下所示
GPT-OSS (20B) | GPT-OSS (120B) | Phi-4 (15B) | Llama-3.1 (70B) | Gemma-3 (27B) | Qwen3 (30B) | Command-A (110B) | |
---|---|---|---|---|---|---|---|
25 個 token | 0.49 | 1.84 | 4.03 | 4.91 | 5.30 | 8.15 | 8.95 |
50 個 token | 0.98 | 3.83 | 6.79 | 7.38 | 8.67 | 10.48 | 10.18 |
100 個 token | 2.02 | 8.31 | 7.93 | 9.68 | 10.46 | 17.37 | 18.96 |
我們可以看到 GPT-OSS 模型是我們樣本中能效最高的,其中 120B 模型每個查詢的能耗低於 LLaMa-70B 等較小模型,而 gpt-oss-20b 是全面效率最高的。作為參考,20b 模型處理 100 個 token 的查詢大約消耗 2 瓦時能量,這大致相當於一個 LED 燈泡執行 5-10 分鐘的電量,而擁有 30 億引數的 Qwen 3 模型,處理相同長度的查詢卻消耗 17 瓦時,即相同輸出長度的能耗是其 8 倍。
這種效率可以透過 GPT-OSS 模型內建的許多技術貢獻來解釋,這些貢獻有助於提高其能效。這包括諸如專家混合等功能,它減少了處理輸入所需的活動引數數量,從而降低了計算成本和能耗,以及注意力最佳化,提高了推理和記憶體效率(有關架構和實現的更詳細描述,請參閱 GPT-OSS 技術報告)。
兩個月前,OpenAI 執行長 Sam Altman 寫了一篇部落格文章,指出典型的 ChatGPT 請求消耗大約 0.34 瓦時能量(並消耗約 0.000085 加侖水)。雖然鑑於透明度顯著提高,我們仍然不能完全相信這些數字,但 GPT-OSS 模型的計算效率令人鼓舞。在實踐中,這種效率可以透過批處理和量化等最佳化進一步提高,這可以進一步最大化特定部署配置的效率。
新的 GPT-OSS 模型令人印象深刻的效率對人工智慧領域來說是個好訊息,因為它表明模型可以同時具有令人難以置信的效率和高效能。我們將在定於 9 月釋出的下一版 AI 能源得分排行榜中收錄這些模型以及我們測試過的所有其他模型。我們還在進行更深入的工作,探討批處理和輸出長度等因素如何影響能源效率。敬請關注此主題的未來工作!
致謝
感謝 Brigitte Tousignant 和 Yacine Jernite 對這篇博文的反饋和建議。