AI 模型的能耗分數

社群文章 釋出於 2024 年 5 月 9 日

背景與靈感——美國環保署能源之星評級

每次我們使用電子裝置,如電腦、手機,甚至洗衣機,我們都在消耗能量為裝置供電;根據能量的產生方式,這可能導致溫室氣體(GHG)排放。1992 年,美國環境保護署(EPA)啟動了能源之星計劃,旨在為不同型別的裝置制定能效標準,並幫助消費者做出明智的決策。在過去的 30 年中,能源之星計劃已減少了數十億噸溫室氣體排放,並涵蓋了數十種產品類別,從資料中心到洗碗機。

圖片來源:Energystar.gov

AI 能耗分數專案提案

每次向 AI 模型傳送查詢時,我們也會消耗能量,無論是在我們本地的計算機上還是在雲伺服器上。我們消耗的能量量取決於模型的特性,例如其大小和架構,以及其部署方式,即所做的最佳化和工程選擇。

AI 能耗分數專案旨在開發一套 AI 模型部署評分系統,該系統將指導社群成員根據模型的能效選擇用於不同任務的模型(及其執行方式),並分析實施選擇對不同模型的下游能耗的影響。

本文介紹了我們為開發一個廣泛適用的 AI 模型能耗評級系統而進行的初步工作,該系統將**與其他指標結合使用**,例如任務特定效能指標。此處做出的選擇代表了我們為該專案奠定堅實基礎的方法,並且旨在在後續版本中不斷發展以增加其廣度和穩健性;為此,我們歡迎早期反饋!

任務和模型

由於最初的能源之星評級旨在涵蓋各種用例和消費產品,我們選擇了 10 個流行的任務,涵蓋語言、音訊和計算機視覺,包括多模態任務。透過測試不同任務中的各種模型,我們旨在涵蓋與不同群體相關的不同用例和 AI 應用

語言

  • 文字生成
  • 摘要
  • 抽取式問答
  • 文字分類
  • 語義相似性

視覺

  • 影像分類
  • 目標檢測

音訊

  • 自動語音識別

多模態

  • 文字到影像
  • 影像到文字

我們為每個任務開發了一個測試資料集,包含每個任務至少 3 個數據集的 1,000 個樣本,以代表不同的用例:例如,文字生成任務資料集包含來自 WikiTextOSCARUltraChat-10K 的隨機樣本。所有資料集都可以在我們的 Hub 組織中找到。

對於每個任務,我們從 Hugging Face Hub 中抽取了流行且最新的模型樣本,涵蓋了各種大小和架構。對於每個任務,我們還定義了一組控制變數——控制批大小、生成的 token 數量、影像尺寸、取樣率等,以實現模型的標準化測試。

初步結果

我們正在 Hugging Face 計算叢集上的 NVIDIA H100 GPU 上執行第一系列任務:文字分類、影像分類、問答和文字生成。

我們的初步結果表明,模型之間的差異取決於任務的性質,從影像分類的最有效模型和最無效模型之間的 5 倍差異,到文字生成的 50 倍差異。

我們對任務特定(微調)模型與零樣本(T5 系列)模型進行的實驗結果與我們之前的工作中發現的結果一致——零樣本模型在文字分類和問答等任務中比相同任務的單任務模型消耗的能量多幾個數量級。

未來工作

在完成我們專案的所有十項任務測試後,我們的目標是為每項任務建立平均值和偏差,我們將使用這些資料來分配最終的 AI 能耗分數。然後,我們將透過“綠色 AI 排行榜”空間展示我們的結果,以允許社群成員比較和探索不同的開源模型和任務。

我們還將測試不同的實施選擇和最佳化策略,以測試它們對模型效率的影響,旨在確定 AI 社群可以採取的簡單步驟,以使其模型更高效。

請繼續關注未來幾周的更多結果!

-- 能耗分數專案團隊(SashaYacineRegisIlyas

社群

註冊登入以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.