AI 藝術工具資訊

釋出於 2025 年 1 月 31 日
在 GitHub 上更新

創刊號 🎉

人工智慧領域發展如此之快,很難相信一年前我們還在為生成手指數量正確的人物而苦惱 😂。

過去幾年對於開源模型和藝術創作工具而言至關重要。用於創意表達的 AI 工具從未如此普及,而我們才剛剛觸及表面。加入我們,一同回顧 2024 年 AI 與藝術領域的關鍵里程碑、工具和突破,並展望 2025 年的未來(劇透 👀:我們將啟動一個新的月度綜述 👇)。

目錄

2024 年主要釋出

2024 年有哪些傑出的創意 AI 工具釋出?我們將重點介紹創意和藝術領域的重大發布,特別關注影像和影片生成等熱門任務中的開源進展。

2024 highlights

影像生成

自最初的 Stable Diffusion 釋出並以開源模型在影像生成領域掀起波瀾兩年多以來,如今可以肯定地說,在文生圖、影像編輯和可控影像生成方面,開源模型正在給閉源模型帶來激烈的競爭。
2024 highlights

文生圖

flux 2024 年是我們見證擴散模型範式轉變的一年——從傳統的基於 Unet 的架構轉向擴散 Transformer(DiT),以及目標函式切換到流匹配。

一句話總結 - 擴散模型和高斯流匹配是等價的。流匹配提出了一種網路輸出的向量場引數化方法,這與之前擴散模型中常用的方法不同。

回到實踐:首先宣佈這一轉變的是 Stability AI 釋出的 Stable Diffusion 3,然而 HunyuanDiT 成為了首個採用 DiT 架構的開源模型。
這一趨勢隨著 AuraFlowFlux.1Stable Diffusion 3.5 的釋出而繼續。

在開源影像生成模型(不那麼長)的歷史中,有許多關鍵時刻,可以肯定地說,Flux.1 的釋出是其中之一。Flux [dev] 達到了新的技術水平,在各種基準測試中超越了像 Midjourney v6.0、DALL·E 3 (HD) 這樣的熱門閉源模型。

個性化與風格化

影像模型進步的一個積極副作用是,文生圖模型的個性化技術和可控生成得到了顯著改善。

早在 2022 年 8 月,像 Textual InversionDreamBooth 這樣的變革性工作增強了我們向文生圖模型教授和引入新概念的能力,極大地擴充套件了它們的應用範圍。這些工作為一系列基於這些技術(例如用於擴散模型的 LoRA)的改進和增強打開了大門。

textual inversion - dreambooth

然而,微調模型的質量上限自然取決於其微調所基於的基礎模型。從這個意義上說,我們不能忽視 Stable Diffusion XL,它也是開源影像生成模型個性化的一個重要標誌。一個證明是,即使是現在,許多流行的個性化和可控生成技術及模型都是基於 SDXL 的。SDXL(以及之後釋出的具有類似質量的模型)的先進能力,加上對擴散模型架構中不同元件語義角色的日益理解,提出了一個問題——
在不進行進一步最佳化的情況下,我們能實現什麼?

緊隨其後的是零樣本技術的大量湧現 - 2024 年絕對是實現僅憑一張參考圖片且無需任何最佳化就能生成高質量人像的一年。像 IP adapter FaceIDInstantIDPhotomaker 等無需訓練的技術相繼問世,並展示了與微調模型相比具有競爭力甚至更優越的能力。

instantid

同樣,影像編輯和可控生成——例如帶有 canny / depth / pose 約束的影像生成——也取得了進展,這既得益於基礎模型質量的不斷提高,也得益於社群對不同元件語義角色的日益理解(Instant StyleB-LoRA)。

那麼接下來呢?自從正規化轉向 DiT 和流匹配目標以來,又出現了其他模型,試圖利用像 Flux 和 SD3.5 這樣的基於 DiT 的模型來實現類似目的,但到目前為止,儘管底層基礎模型的質量更高,其效果仍未能超越基於 SDXL 的模型。這可能歸因於與 Unet 相比,我們對 DiT 中不同元件的語義角色的理解相對缺乏。2025 年可能是我們識別出 DiT 中這些角色的一年,從而為下一代影像生成模型解鎖更多可能性。

影片生成

與影像生成相比,影片生成領域我們還有很長的路要走。但是,可以肯定地說,我們已經比一年前進步了很多。雖然我們全力支援開源,但 AI 影片生成的巨大飛躍(部分)功勞要歸於 OpenAI 的 Sora,它徹底改變了我們對影片模型能力的期望。正如 fofr 在《AI 影片正迎來它的 Stable Diffusion 時刻》(我們推薦閱讀 🙂)一文中所言,它
讓每個人都意識到了什麼是可能的。

近期開源影片生成模型的激增也同樣引人注目,包括 CogVideoXMochiAllegroLTX VideoHunyuanVideo。由於需要保證運動質量、連貫性和一致性,影片生成本質上比影像生成更具挑戰性。此外,影片生成需要大量的計算和記憶體資源,導致生成延遲很長。這常常阻礙了在本地裝置上的使用,使得許多新的開源影片模型在沒有進行大量記憶體最佳化和量化方法的情況下,無法在社群硬體上執行,而這些方法又會影響推理延遲和生成影片的質量。儘管如此,開源社群還是取得了顯著的進步——最近這篇關於開源影片生成模型現狀的部落格對此進行了介紹。

雖然這意味著大多數社群成員仍然無法使用開源影片模型進行實驗和開發,但這也表明我們可以在 2025 年期待重大的進步。

音訊生成

音訊生成在過去一年中取得了顯著進展,從簡單的聲音發展到帶歌詞的完整歌曲。儘管面臨挑戰——音訊訊號複雜多面,需要比生成文字或影像的模型更復雜的數學模型,且訓練資料相當稀缺——2024 年仍見證了像 OuteTTSIndicParlerTTS 這樣的開源文字轉語音模型的釋出,以及 OpenAI 的 Whisper large v3 turbo 用於語音識別。2025 年已經初顯成為音訊模型的突破年,僅在一月份就有大量的釋出。我們見證了三個新的文字轉語音模型的釋出:KokoroLLasa TTSOuteTTS 0.3,以及兩個新的音樂模型:JASCOYuE。按照這個速度,我們可以期待在整個年度音訊領域會有更多激動人心的發展。

下面這首歌👇就是用 YuE 生成的 🤯

2024 年大放異彩的創意工具

開源的美妙之處在於它允許社群進行實驗,為現有模型/流程找到新用途,並共同改進和構建新工具。今年許多流行的創意 AI 工具都是社群共同努力的成果。

以下是我們最喜歡的一些

Flux 微調

去年創作的許多令人驚歎的 Flux 微調模型都是透過 ostrisAI-toolkit 訓練的。

面孔百變

受 fofr 的 face-to-many 啟發,Face to All 結合了熱門的 Instant ID 模型,並添加了 ControlNet 深度約束和社群微調的 SDXL LoRA,以創造無需訓練的高質量創意風格肖像。

face to all

Flux 風格塑造

基於 Nathan Shipley 的 ComfyUI 工作流,Flux 風格塑造 結合了 Flux [dev] Redux 和 Flux [dev] Depth,用於風格遷移和視覺錯覺創作。

style shaping

使用 diffusers 進行影像外擴

Diffusers 影像外擴 利用 diffusers 的 Stable Diffusion XL 填充流程以及 SDXL union controlnet,無縫地擴充套件輸入影像。

Live portrait, Face Poke

使用 Live PortraitFace Poke,為靜態肖像新增動態表情從未如此簡單。

TRELLIS

TRELLIS 是一款用於多功能、高質量 3D 資產建立的 3D 生成模型,它以驚人的勢頭席捲了 3D 領域。

IC Light

IC-Light,全稱“Imposing Consistent Light”,是一款帶有前景條件的重打光工具。

2025 年 AI 與藝術領域有哪些值得期待?

2025 年將是開源在影片、運動和音訊模型方面迎頭趕上的一年,為更多模態留出空間。隨著高效計算和量化技術的進步,我們可以期待開源影片模型實現重大飛躍。隨著影像生成模型接近(自然的)平臺期,我們可以將注意力轉移到其他任務和模態上。

強勢開局 - 2025 年 1 月的開源釋出

  1. YuE - 一系列用於完整歌曲生成的開源音樂基礎模型。YuE 可能是音樂生成領域最好的開源模型(採用 Apache 2.0 許可證!),其效果可與 Suno 等閉源模型相媲美。

    立即試用並瞭解更多: 演示, 模型權重

  1. 混元 3D-2、SPAR3D、DiffSplat - 3D 生成模型。3D 模型來勢洶洶——在 TRELLIS 釋出後不久,混元 3D-2、SPAR3D 和 DiffSplat 就已準備好接管 3D 領域。

    立即試用並瞭解更多

  2. Lumina-Image 2.0 - 文生圖模型。Lumina 是一個 20 億引數的模型,其效能可與 120 億引數的 Flux.1 [dev] 相媲美,並且採用 Apache 2.0 許可證 (!!)。

    立即試用並瞭解更多: 演示, 模型權重

  3. ComfyUI-to-Gradio - 一個關於如何將複雜的 ComfyUI 工作流轉換為簡單的 Gradio 應用程式,以及如何將此應用程式部署在 Hugging Face Spaces ZeroGPU 無伺服器架構上的分步指南,這使其能夠以無伺服器的方式免費部署和執行。瞭解更多請點選這裡

官宣我們的資訊 🗞️

從這篇部落格開始,我們(PoliLinoy)將每月為您帶來創意 AI 世界的最新動態。在這樣一個快速發展的領域,要跟上所有新進展非常困難,更不用說從中篩選資訊了。這就是我們介入的地方,希望透過這種方式,我們可以讓創意 AI 工具更容易被大家接觸到。

社群

感謝這篇精彩的博文。期待下一期!

📻 🎙️ 嘿,我為這篇部落格文章製作了一個播客,快來聽聽吧!

該播客由 ngxson/kokoro-podcast-generator 生成,使用了 DeepSeek-R1 和 Kokoro-TTS

非常喜歡閱讀《AI 藝術工具資訊》——對 2024 年主要由 AI 驅動的創意工具進行了結構清晰、見解深刻的概述!對影像生成、個性化和影片生成部分的剖析,對於理解 AI 如何改變藝術工作流程特別有幫助。

在研究時,我發現了這個關於使用 RunPod 和 ComfyUI 進行 AI 驅動影像生成的資源,其中涵蓋了 ComfyUI 的設定、擴散模型工作流以及 Hugging Face 模型的整合:https://mobisoftinfotech.com/resources/blog/flux-on-runpod-using-comfyui

很想聽聽您對 2025 年 AI 在風格化和個性化方面的角色將如何演變的看法!

註冊登入以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.