Diffusers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Stable Video Diffusion

Stable Video Diffusion 是由 Andreas Blattmann, Tim Dockhorn, Sumith Kulal, Daniel Mendelevitch, Maciej Kilian, Dominik Lorenz, Yam Levi, Zion English, Vikram Voleti, Adam Letts, Varun Jampani, Robin Rombach 在 Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets 中提出的。

論文摘要如下：

我們提出了 Stable Video Diffusion——一個用於高解析度、最先進的文字到影片和影像到影片生成的潛在影片擴散模型。最近，經過2D影像合成訓練的潛在擴散模型透過插入時間層並在小型高質量影片資料集上進行微調，已轉化為生成式影片模型。然而，文獻中的訓練方法差異很大，該領域尚未就統一的影片資料整理策略達成一致。在本文中，我們確定並評估了成功訓練影片 LDM 的三個不同階段：文字到影像預訓練、影片預訓練和高質量影片微調。此外，我們證明了精心整理的預訓練資料集對於生成高質量影片的必要性，並提出了一個系統化的整理過程來訓練一個強大的基礎模型，包括字幕和過濾策略。然後，我們探索了在高質量資料上微調我們的基礎模型的影響，並訓練了一個與閉源影片生成具有競爭力的文字到影片模型。我們還展示了我們的基礎模型為下游任務（如影像到影片生成）和對相機運動特定 LoRA 模組的適應性提供了強大的運動表示。最後，我們證明了我們的模型提供了一個強大的多檢視3D先驗，可以作為基礎來微調一個多檢視擴散模型，該模型以前饋方式聯合生成物件的多個檢視，以其計算預算的一小部分優於基於影像的方法。我們在此 URL 釋出程式碼和模型權重。

要了解如何使用 Stable Video Diffusion，請參閱 Stable Video Diffusion 指南。

請檢視 Stability AI Hub 組織，獲取基礎和擴充套件幀檢查點！

提示

影片生成是記憶體密集型操作，減少記憶體使用的一種方法是在管道的 UNet 上設定 enable_forward_chunking，這樣你就不會一次性執行整個前饋層。將其分成塊在迴圈中執行會更高效。

有關特定引數如何影響影片生成以及如何透過減少記憶體使用來最佳化推理的更多詳細資訊，請參閱文字或影像到影片指南。

StableVideoDiffusionPipeline

class diffusers.StableVideoDiffusionPipeline

< source >

( vae: AutoencoderKLTemporalDecoder image_encoder: CLIPVisionModelWithProjection unet: UNetSpatioTemporalConditionModel scheduler: EulerDiscreteScheduler feature_extractor: CLIPImageProcessor )

引數

vae (AutoencoderKLTemporalDecoder) — 用於將影像編碼和解碼為潛在表示的變分自編碼器 (VAE) 模型。
image_encoder (CLIPVisionModelWithProjection) — 凍結的 CLIP 影像編碼器（laion/CLIP-ViT-H-14-laion2B-s32B-b79K）。
unet (UNetSpatioTemporalConditionModel) — 一個用於對編碼影像潛在表示進行去噪的 UNetSpatioTemporalConditionModel。
scheduler (EulerDiscreteScheduler) — 與 unet 結合使用的排程器，用於對編碼影像潛在表示進行去噪。
feature_extractor (CLIPImageProcessor) — 一個 CLIPImageProcessor，用於從生成的影像中提取特徵。

用於使用 Stable Video Diffusion 從輸入影像生成影片的管道。

該模型繼承自 DiffusionPipeline。請檢視超類文件，瞭解為所有管道實現的通用方法（下載、儲存、在特定裝置上執行等）。

StableVideoDiffusionPipelineOutput

class diffusers.pipelines.stable_video_diffusion.StableVideoDiffusionPipelineOutput

< source >

( frames: typing.Union[typing.List[typing.List[PIL.Image.Image]], numpy.ndarray, torch.Tensor] )

引數

frames ([List[List[PIL.Image.Image]], np.ndarray, torch.Tensor]) — 長度為 batch_size 的去噪 PIL 影像列表，或形狀為 (batch_size, num_frames, height, width, num_channels) 的 numpy 陣列或 torch 張量。

Stable Video Diffusion 管道的輸出類。

< > 在 GitHub 上更新

←影像到影像影像修復→