🤗 社群釋出的文字到影像生成開放偏好資料集

釋出日期:2024年12月9日
在 GitHub 上更新

“資料共好”社群又釋出了一個對開源開發至關重要的資料集。由於缺乏用於文字到影像生成的開放偏好資料集,我們著手釋出一個採用 Apache 2.0 許可的文字到影像生成資料集。該資料集側重於常見影像生成類別中的文字到影像偏好對,同時混合了不同的模型系列和不同的提示覆雜性。

太長不看?所有結果都可以在Hugging Face Hub 上的這個集合中找到,預處理和後處理程式碼可以在這個 GitHub 倉庫中找到。最重要的是,有一個即用型偏好資料集和一個flux-dev-lora-微調模型。如果你想表示支援,請在繼續閱讀之前點贊、訂閱並關注我們。

不熟悉“資料共好”社群?

[資料共好](https://huggingface.co/data-is-better-together)是 🤗 Hugging Face 和開源 AI 社群之間的合作。我們的目標是賦能開源社群,共同構建有影響力的資料集。你可以關注該組織,以獲取最新的資料集、模型和社群衝刺。

類似工作

已經有許多建立開放影像偏好資料集的嘗試,但我們的工作是獨一無二的,因為它包含了不同複雜度和類別的提示,並且資料集和建立程式碼都是開放的。以下是一些此類工作:

- [yuvalkirstain/pickapic_v2](https://huggingface.co/datasets/yuvalkirstain/pickapic_v2)
- [fal.ai/imgsys](https://imgsys.org/)
- [TIGER-Lab/GenAI-Arena](https://huggingface.co/spaces/TIGER-Lab/GenAI-Arena)
- [artificialanalysis image arena](https://artificialanalysis.ai/text-to-image/arena)

輸入資料集

為了獲得用於本次衝刺的合適輸入資料集,我們首先使用了一些基本提示,並使用 distilabel 透過合成數據生成對其進行了清洗、毒性過濾以及類別和複雜性注入。最後,我們使用 Flux 和 Stable Diffusion 模型生成影像。這產生了 open-image-preferences-v1

輸入提示

Imgsys 是一個由 fal.ai 託管的生成影像模型競技場,人們可以在其中提供提示並在兩個模型生成之間進行選擇以提供偏好。遺憾的是,生成的影像並未公開發布,但相關的提示託管在 Hugging Face 上。這些提示代表了影像生成的實際使用情況,其中包含側重於日常生成的良好示例,但這種實際使用也意味著它包含重複和有毒的提示,因此我們必須檢視資料並進行一些過濾。

降低毒性

我們旨在在社群開始之前從資料集中刪除所有 NSFW 提示和影像。我們採用了一種多模型方法,使用兩個基於文字和兩個基於影像的分類器作為過濾器。過濾後,我們決定手動檢查每張影像,以確保沒有留下任何有害內容,幸運的是,我們發現我們的方法奏效了。

我們使用了以下流程:

  • 將影像分類為 NSFW
  • 刪除所有陽性樣本
  • Argilla 團隊手動審查資料集
  • 根據審查結果重複

合成提示增強

資料多樣性對於資料質量至關重要,因此我們決定透過使用一個 distilabel 管道,根據各種類別和複雜性合成重寫提示來增強我們的資料集。

型別 提示 影像
預設 一把沒有弦的豎琴 Default Harp Image
程式化 一把沒有弦的豎琴,以動漫風格呈現,具有複雜的細節和流暢的線條,背景是夢幻般的柔和色彩 Stylized Harp Image
質量 一把沒有弦的豎琴,以動漫風格呈現,具有複雜的細節和流暢的線條,背景是夢幻般的柔和色彩,沐浴在柔和的黃金時段光線下,氛圍寧靜,紋理豐富,高解析度,照片級真實感 Quality Harp Image

提示類別

InstructGPT 描述了文字到文字生成的基礎任務類別,但文字到影像生成沒有明確的等效類別。為了解決這個問題,我們使用兩個主要來源作為我們類別的輸入:google/sdxlMicrosoft。這導致了以下主要類別:["電影", "攝影", "動漫", "漫畫", "數字藝術", "畫素藝術", "奇幻藝術", "霓虹朋克", "3D 模型", “繪畫”, “動畫” “插畫”]。除此之外,我們還選擇了一些互斥的子類別,以進一步豐富提示的多樣性。這些類別和子類別是隨機抽樣的,因此在整個資料集中大致均勻分佈。

提示覆雜性

Deita 論文證明,不斷變化的提示覆雜性和多樣性可以帶來更好的模型生成和微調,但是,人類並不總是花時間編寫詳盡的提示。因此,我們決定以複雜和簡化兩種方式使用相同的提示作為不同偏好生成的兩個資料點。

影像生成

ArtificialAnalysis/Text-to-Image-Leaderboard 顯示了效能最佳的影像模型的概覽。我們根據它們的許可和在 Hub 上的可用性,選擇了其中兩個效能最佳的模型。此外,我們確保模型屬於不同的模型家族,以免突出不同類別之間的生成。因此,我們選擇了 stabilityai/stable-diffusion-3.5-largeblack-forest-labs/FLUX.1-dev。然後,每個模型都用於在相同風格類別中為簡化和複雜提示生成影像。

image-generation

結果

所有標註資料的原始匯出包含對多項選擇的回答,其中每個標註者都選擇了哪個模型更好,兩個模型都表現良好,或兩個模型都表現不佳。基於此,我們可以檢視標註者對齊、不同類別下的模型效能,甚至進行模型微調,你可以在 Hub 上試用!以下顯示了標註資料集:

標註者一致性

標註者一致性是檢查任務有效性的一種方法。當任務太難時,標註者可能不一致;而當任務太容易時,他們可能過於一致。在這項衝刺中,我們成功地找到了平衡點。我們使用 Hugging Face 資料集 SQL 控制檯進行了這項分析。總的來說,在我們的測試設定中,SD3.5-XL 更有可能獲勝。

模型效能

鑑於標註者的一致性,這兩個模型都證明了它們各自的效能更優,因此我們進行了額外的分析,以檢視不同類別之間是否存在差異。簡而言之,FLUX-dev 在動漫方面表現更好,而 SD3.5-XL 在藝術和電影場景方面表現更好。

  • 持平:攝影、動畫
  • FLUX-dev 更佳:3D 模型、動漫、漫畫
  • SD3.5-XL 更佳:電影、數字藝術、奇幻藝術、插畫、霓虹朋克、繪畫、畫素藝術

模型微調

為了驗證資料集的質量,同時不花費太多時間和資源,我們決定根據GitHub 上的擴散器示例black-forest-labs/FLUX.1-dev 模型進行 LoRA 微調。在此過程中,我們將選擇的樣本作為 FLUX-dev 模型的預期完成項,並排除了被拒絕的樣本。有趣的是,經過微調的模型在藝術和電影場景中表現得更好,而這些場景最初是其弱項!你可以在這裡測試微調後的介面卡

提示 原始 微調
一艘船停泊在威尼斯運河中,以水粉畫繪製,筆觸柔和流暢,色彩鮮豔半透明,在霧濛濛的氛圍下捕捉水中的寧靜倒影,紋理豐富,視角動感 Original Venice Finetune Venice
一朵鮮豔的橙色罌粟花,被華麗的金色畫框包裹,以黑色為背景,以動漫風格呈現,線條粗獷,細節誇張,光影對比強烈。 Original Flower Finetune Flower
廚房裡機器人做飯的顆粒感照片,柔和的陰影和懷舊的膠片質感。 Original Robot Finetune Robot

社群

簡而言之,我們在不到 2 周的時間內標註了 1 萬對偏好,標註者重疊率為 2/3,這導致了超過 3 萬個響應,其中有超過 250 名社群成員參與!影像排行榜顯示,有些社群成員甚至提供了超過 5 千個偏好。我們想感謝所有參與本次衝刺的人,特別感謝排名前三的使用者,他們都將獲得一個月的 Hugging Face Pro 會員資格。請務必在 Hub 上關注他們:aashish1904prithivMLmodsMalalatiana

leaderboard

下一步是什麼?

又一次成功的社群衝刺之後,我們將繼續在 Hugging Face Hub 上組織此類活動。請務必關注 Data Is Better Together 組織以獲取最新資訊。我們還鼓勵社群成員自行採取行動,並樂意在社交媒體和 Hub 上的組織內進行指導和轉發。您可以透過以下幾種方式做出貢獻:

  • 加入並參與其他衝刺活動。
  • 提出您自己的衝刺或高質量資料集請求。
  • 偏好資料集的基礎上微調模型。一個想法是對 SDXL 或 FLUX-schnell 進行完整的 SFT 微調。另一個想法是進行 DPO/ORPO 微調。
  • 評估LoRA 介面卡相較於原始 SD3.5-XL 和 FLUX-dev 模型的改進效能。

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.