🤗 Diffusers 1 週年快樂!

釋出於 2023 年 7 月 20 日
在 GitHub 上更新

🤗 Diffusers 很高興慶祝它的第一個週年紀念日!這是激動人心的一年,我們為在社群和開源貢獻者的幫助下取得的成就感到自豪和感激。去年,DALL-E 2、Imagen 和 Stable Diffusion 等文字到影像模型以其從文字生成令人驚歎的逼真影像的能力吸引了全世界的注意力,引發了生成式 AI 領域的大量興趣和發展。但這些強大模型的訪問受到限制。

在 Hugging Face,我們的使命是透過協作和互相幫助,共同構建一個開放和道德的 AI 未來,從而使優秀的機器學習民主化。我們的使命促使我們建立了 🤗 Diffusers 庫,以便每個人都可以嘗試、研究或僅僅是玩轉文字到影像模型。這就是為什麼我們將該庫設計成一個模組化工具箱,您可以自定義擴散模型的元件,或者直接開箱即用。

在 🤗 Diffusers 成立 1 週年之際,以下是我們社群幫助新增到庫中的一些最顯著功能的概述。我們為成為一個積極參與的社群的一員而感到自豪和無比感激,該社群促進可訪問的使用,推動擴散模型超越文字到影像生成,並全面激發靈感。

目錄

追求真實感

生成式 AI 模型以建立逼真影像而聞名,但如果仔細觀察,您可能會發現某些地方看起來不對勁,比如在手上生成多餘的手指。今年,DeepFloyd IF 和 Stability AI SDXL 模型透過提高生成影像的質量,使其更加逼真而引起轟動。

DeepFloyd IF - 一種模組化擴散模型,包含不同的影像生成過程(例如,影像放大 3 倍以生成更高解析度的影像)。與 Stable Diffusion 不同,IF 模型直接在畫素級別工作,並使用大型語言模型對文字進行編碼。

Stable Diffusion XL (SDXL) - Stability AI 最新的 Stable Diffusion 模型,引數比其前身 Stable Diffusion 2 多得多。它生成超逼真的影像,利用一個基礎模型來實現對提示的緊密遵循,以及一個專注於細節和高頻內容的精煉模型。

立即訪問 DeepFloyd IF 文件 和 SDXL 文件,瞭解如何開始生成自己的影像!

影片流程

文字到影像流程很酷,但文字到影片更酷!我們目前支援兩種文字到影片流程:VideoFusionText2Video-Zero

如果您已經熟悉文字到影像流程,使用文字到影片流程也非常相似。

import torch
from diffusers import DiffusionPipeline
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("cerspense/zeroscope_v2_576w", torch_dtype=torch.float16)
pipe.enable_model_cpu_offload()

prompt = "Darth Vader surfing a wave"
video_frames = pipe(prompt, num_frames=24).frames
video_path = export_to_video(video_frames)
Generated video of Darth Vader surfing.

我們預計文字到影片將在 🤗 Diffusers 的第二年經歷一場革命,我們很高興看到社群在此基礎上構建什麼,以推動從語言生成影片的界限!

文字到 3D 模型

除了文字到影片,我們現在還可以實現文字到 3D 生成,這要歸功於 OpenAI 的 Shap-E 模型。Shap-E 透過編碼大量的 3D-文字對資料集進行訓練,並且擴散模型以編碼器的輸出為條件。您可以為影片遊戲、室內設計和建築設計 3D 資產。

今天就用 ShapEPipelineShapEImg2ImgPipeline 試一試吧。

3D render of a birthday cupcake generated using SHAP-E.

影像編輯流程

影像編輯是時尚、材料設計和攝影中最實用的用例之一。隨著擴散模型的發展,影像編輯的可能性持續擴大。

🤗 Diffusers 中有許多 流程 支援影像編輯。有一些影像編輯流程允許您將所需的編輯描述為提示,從影像中刪除概念,甚至還有一個流程可以統一多種生成方法來建立高質量影像,如全景圖。藉助 🤗 Diffusers,您現在就可以體驗未來的照片編輯!

更快的擴散模型

擴散模型因其迭代步驟而耗時。藉助 OpenAI 的 一致性模型,影像生成過程顯著加快。在現代 CPU 上生成單個 256x256 解析度的影像僅需 3/4 秒!您可以使用 🤗 Diffusers 中的 ConsistencyModelPipeline 試用此功能。

除了更快的擴散模型之外,我們還提供了許多最佳化技術以加快推理速度,例如 PyTorch 2.0 的 scaled_dot_product_attention() (SDPA) 和 torch.compile()、切片注意力、前饋分塊、VAE 平鋪、CPU 和模型解除安裝等等。這些最佳化節省了記憶體,從而加快了生成速度,並允許您在消費級 GPU 上執行推理。當您使用 🤗 Diffusers 分發模型時,所有這些最佳化都將立即得到支援!

此外,我們還支援特定的硬體和格式,如 ONNX、Apple Silicon 計算機的 mps PyTorch 裝置、Core ML 等。

要了解更多關於我們如何使用 🤗 Diffusers 最佳化推理的資訊,請檢視文件

倫理與安全

生成模型很酷,但它們也可能產生有害和不適宜的內容。為了幫助使用者負責任和道德地與這些模型互動,我們添加了一個 safety_checker 元件,用於標記推理過程中生成的不適當內容。模型建立者可以選擇將此元件整合到他們的模型中。

此外,生成模型還可以用於製造虛假資訊。今年早些時候,儘管影像是假的,但 Balenciaga Pope 因其逼真程度而走紅。這強調了區分生成內容和人類內容機制的重要性。這就是為什麼我們為 SDXL 模型生成的影像添加了隱形水印,這有助於使用者更好地瞭解情況。

這些功能的開發遵循我們的 道德章程,您可以在我們的文件中找到它。

支援 LoRA

微調擴散模型代價高昂,對於大多數消費級 GPU 來說遙不可及。我們添加了低秩適應(LoRA)技術來彌補這一差距。LoRA 是一種引數高效的微調方法,使用它,您可以更快地微調大型擴散模型並消耗更少的記憶體。生成的模型權重也比原始模型輕得多,因此您可以輕鬆共享您的自定義模型。如果您想了解更多資訊,我們的文件 展示瞭如何使用 LoRA 對 Stable Diffusion 進行微調和推理。

除了 LoRA,我們還支援其他用於個性化生成的訓練技術,包括 DreamBooth、文字反演、自定義擴散等等!

Torch 2.0 最佳化

PyTorch 2.0 引入了torch.compile()scaled_dot_product_attention() 的支援,這是注意力機制的更高效實現。🤗 Diffusers 提供了對這些功能的一流支援,從而大大縮短了推理延遲,有時甚至可以快兩倍以上!

除了視覺內容(影像、影片、3D 資產等),我們還增加了對音訊的支援!檢視文件以瞭解更多資訊。

社群亮點

過去一年最令人欣慰的經歷之一是看到社群如何將 🤗 Diffusers 融入他們的專案中。從為更快地訓練文字到影像模型而改編低秩適應 (LoRA),到構建最先進的修復工具,以下是我們最喜歡的一些專案:

我們構建了 Core ML Stable Diffusion,旨在讓開發者更輕鬆地在他們的 iOS、iPadOS 和 macOS 應用程式中新增最先進的生成式 AI 功能,並在 Apple Silicon 上實現最高效率。我們基於 🤗 Diffusers 而不是從頭開始構建,因為 🤗 Diffusers 始終處於快速發展的領域前沿,並促進了新舊思想之間急需的互操作性。

Atila Orhon

🤗 Diffusers 對我來說絕對是開發者友好的,讓我能夠直接深入研究 Stable Diffusion 模型。主要區別在於,🤗 Diffusers 的實現通常不是來自研究實驗室的程式碼,這些程式碼主要關注高速度驅動。雖然研究程式碼通常編寫得很差且難以理解(缺乏型別、斷言、不一致的設計模式和約定),但 🤗 Diffusers 對我來說使用起來輕而易舉,幾個小時內就能實現我的想法。沒有它,我需要投入更多時間才能開始嘗試。編寫良好的文件和示例也非常有幫助。

Simo

BentoML 是一個統一的框架,用於構建、釋出和擴充套件包含傳統機器學習、預訓練 AI 模型、生成式模型和大型語言模型的生產就緒型 AI 應用程式。所有 Hugging Face Diffuser 模型和流程都可以無縫整合到 BentoML 應用程式中,從而使模型能夠在最合適的硬體上執行並根據使用情況獨立擴充套件。

BentoML

Invoke AI 是一款開源生成式 AI 工具,旨在賦能遊戲設計師、攝影師、建築師和產品設計師等專業創意人士。Invoke 最近在 invoke.ai 推出了其託管服務,允許使用者從任何計算機生成資產,並由開源領域的最新研究提供支援。

InvokeAI

TaskMatrix 連線大型語言模型和一系列視覺模型,從而在聊天過程中傳送和接收影像。

Chenfei Wu

Lama Cleaner 是一款強大的影像修復工具,它利用 Stable Diffusion 技術從您的圖片中刪除不需要的物體、缺陷或人物。它還可以輕鬆擦除並替換影像中的任何內容。

Qing

Grounded-SAM 結合了強大的零樣本檢測器 Grounding-DINO 和 Segment-Anything-Model (SAM),構建了一個強大的流程,可以根據文字輸入檢測和分割所有內容。當與 🤗 Diffusers 修復模型結合時,Grounded-SAM 可以執行高度可控的影像編輯任務,包括替換特定物件、修復背景等。

Tianhe Ren

Stable-Dreamfusion 利用 🤗 Diffusers 中 2D 擴散模型的便捷實現來複制最近的文字到 3D 和影像到 3D 方法。

kiui

MMagic (Multimodal Advanced, Generative, and Intelligent Creation) 是一個先進且全面的生成式 AI 工具箱,提供最先進的 AI 模型(例如由 🤗 Diffusers 和 GAN 驅動的擴散模型)來合成、編輯和增強影像和影片。在 MMagic 中,使用者可以使用豐富的元件來自定義自己的模型,就像玩樂高一樣,並且可以輕鬆管理訓練迴圈。

mmagic

Tune-A-Video 由 Jay Zhangjie Wu 及其 Show Lab 團隊開發,是首個使用單個文字-影片對微調預訓練文字到影像擴散模型的專案,並能實現在保持動作的同時改變影片內容。

Jay Zhangjie Wu

我們還與 Google Cloud (慷慨提供了計算資源) 合作,提供技術指導和指導,幫助社群使用 TPU 訓練擴散模型(在此處檢視活動的總結 here)。有許多很酷的模型,例如這個結合了 ControlNet 和 Segment Anything 的 demo

ControlNet and SegmentAnything demo of a hot air balloon in various styles

最後,我們很高興收到來自 300 多位貢獻者對我們程式碼庫的貢獻,這使我們能夠以最開放的方式進行協作。以下是我們社群的一些貢獻:

除此之外,還要衷心感謝以下為我們提供 Diffusers 最強大功能(排名不分先後)的貢獻者們:

使用 🤗 Diffusers 構建產品

在過去的一年裡,我們還看到許多公司選擇在 🤗 Diffusers 的基礎上構建他們的產品。以下是一些引起我們注意的產品:

  • PlaiDay:“PlaiDay 是一種生成式 AI 體驗,人們可以在其中協作、創作和連線。我們的平臺釋放了人類無限的創造力,併為表達提供了一個安全、有趣的社交畫布。”
  • Previs One:“Previs One 是一個用於電影故事板和預視覺化的擴散流程——它像導演一樣理解電影和電視的構圖規則。”
  • Zust.AI:“我們利用生成式 AI 為品牌和營銷機構建立工作室質量的產品照片。”
  • Dashtoon:“Dashtoon 正在構建一個用於建立和消費視覺內容的平臺。我們有多個流程,可以載入多個 LORA、多個 control-net,甚至多個由 diffusers 提供支援的模型。Diffusers 大大降低了產品工程師和機器學習工程師之間的差距,使 dashtoon 能夠更快、更好地為使用者提供價值。”
  • Virtual Staging AI:“使用生成模型用美麗的傢俱填充空房間。”
  • Hexo.AI:“Hexo AI 透過大規模個性化營銷幫助品牌在營銷支出上獲得更高的投資回報率。Hexo 正在構建一個專有的營銷活動生成引擎,該引擎可以攝取客戶資料並生成符合品牌規範的個性化創意。”

如果您正在基於 🤗 Diffusers 構建產品,我們非常樂意與您交流,以瞭解如何共同改進該庫!請隨時聯絡 patrick@hf.cosayak@hf.co

展望未來

在我們慶祝第一個週年紀念日之際,我們感謝社群和開源貢獻者在如此短的時間內幫助我們取得了如此大的成就。我們很高興地宣佈,我們將在今年秋季的 ICCV 2023 上展示 🤗 Diffusers 演示——如果您參加,請務必前來參觀!我們將繼續開發和改進我們的庫,讓每個人都能更輕鬆地使用。我們也很高興看到社群將利用我們的工具和資源創造出什麼。感謝您迄今為止參與我們的旅程,我們期待著繼續共同普及優秀的機器學習!🥳

❤️ Diffusers 團隊


致謝:感謝 Omar SansevieroPatrick von PlatenGiada Pistilli 的審閱,以及 Chunte Lee 的縮圖設計。

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.