釋出 Artificial Analysis 文字到影像排行榜和競技場

釋出於 2024 年 6 月 6 日
在 GitHub 上更新

自基於擴散的影像生成器問世以來的短短兩年內,AI 影像模型已達到近乎照片級的質量。這些模型相比如何?開源替代方案是否能與它們的專有對手相提並論?

Artificial Analysis 文字到影像排行榜旨在透過基於人類偏好的排名來回答這些問題。ELO 分數是透過在 Artificial Analysis 影像競技場收集的超過 45,000 條人類影像偏好資料計算得出的。該排行榜囊括了領先的開源和專有影像模型:最新版本的 Midjourney、OpenAI 的 DALL·E、Stable Diffusion、Playground 等。

Untitled

在此處檢視排行榜:https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

您也可以參與文字到影像競技場,在投票 30 次後獲得您的個性化模型排名!

方法論

傳統上,比較影像模型的質量比評估其他 AI 模態(如語言模型)更具挑戰性,這在很大程度上是由於人們對影像應如何呈現的偏好存在內在的可變性。隨著影像模型達到非常高的準確度,早期的客觀指標已讓位於昂貴的人類偏好研究。我們的影像競技場代表了一種大規模收集人類偏好資料的眾包方法,首次實現了關鍵模型之間的比較。

我們透過對所有偏好進行迴歸來為每個模型計算 ELO 分數,這與 Chatbot Arena 類似。參與者會看到一個提示和兩張圖片,並被要求選擇最能反映該提示的圖片。為確保評估能反映廣泛的用例,我們為每個模型生成了超過 700 張圖片。提示涵蓋了多種風格和類別,包括人像、人群、動物、自然、藝術等。

來自結果的初步洞見 👀

  • 儘管專有模型領先,但開源模型正變得越來越有競爭力:包括 Midjourney、Stable Diffusion 3 和 DALL·E 3 HD 在內的專有模型在排行榜上領先。然而,一些開源模型,目前以 Playground AI v2.5 為首,正在迎頭趕上,甚至超過了 OpenAI 的 DALL·E 3。
  • 該領域正在迅速發展: 影像生成模型的格局正在迅速演變。就在去年,DALL·E 2 還是該領域的明顯領導者。如今,DALL·E 2 在競技場中的被選率不到 25%,並且是排名最低的模型之一。
  • Stable Diffusion 3 Medium 的開源可能會對社群產生重大影響:Stable Diffusion 3 是當前排行榜上頂尖位置的競爭者,Stability AI 的首席技術官最近在與 AMD 的一次演講中宣佈,Stable Diffusion 3 Medium 將於 6 月 12 日開源。與 Stability AI 當前提供的 Stable Diffusion 3 模型(推測是全尺寸變體)相比,Stable Diffusion 3 Medium 的效能可能稍遜一籌,但這個新模型可能會為開源社群帶來巨大推動力。正如我們在 Stable Diffusion 1.5 和 SDXL 上所見,我們很可能會看到社群釋出許多微調版本。

如何貢獻或聯絡我們

要檢視排行榜,請訪問 Hugging Face 上的空間:https://huggingface.co/spaces/ArtificialAnalysis/Text-to-Image-Leaderboard

要參與排名並貢獻您的偏好,請選擇“影像競技場” (Image Arena) 選項卡,然後選擇您認為最能代表提示的圖片。在評選 30 張圖片後,選擇“個人排行榜” (Personal Leaderboard) 選項卡,即可根據您的選擇檢視您自己的個性化影像模型排名。

如需獲取最新資訊,請在 TwitterLinkedIn 上關注我們。(我們還在我們的網站 https://artificialanalysis.ai/text-to-image 上比較了文字到影像模型 API 端點的速度和定價)。

我們歡迎所有反饋!您可以透過 Twitter 訊息或透過 **我們的網站** 上的聯絡表單與我們聯絡。

其他影像模型質量倡議

Artificial Analysis 文字到影像排行榜並非唯一的質量影像排名或眾包偏好倡議。我們建立我們的排行榜是為了專注於涵蓋專有和開源模型,以全面瞭解領先的文字到影像模型的比較情況。

檢視以下其他優秀的倡議:

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.