Diffusers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

SanaPipeline

SANA：基於線性擴散 Transformer 的高效高解析度影像合成，由 NVIDIA 和麻省理工 HAN 實驗室的 Enze Xie、Junsong Chen、Junyu Chen、Han Cai、Haotian Tang、Yujun Lin、Zhekai Zhang、Muyang Li、Ligeng Zhu、Yao Lu、Song Han 共同完成。

論文摘要如下：

我們引入了 Sana，一個文字到影像框架，能夠高效生成高達 4096×4096 解析度的影像。Sana 能夠以極快的速度合成高解析度、高質量的影像，並且具有強大的文字-影像對齊能力，可在筆記型電腦 GPU 上部署。核心設計包括：(1) 深度壓縮自編碼器：與傳統僅壓縮影像 8 倍的自編碼器不同，我們訓練了一個可將影像壓縮 32 倍的自編碼器，有效減少了潛在令牌的數量。(2) 線性 DiT：我們用線性注意力替換了 DiT 中的所有香草注意力，這在不犧牲質量的情況下在更高解析度下更高效。(3) 僅解碼器文字編碼器：我們用現代僅解碼器小型 LLM 替換了 T5 作為文字編碼器，並設計了帶有上下文學習的複雜人工指令，以增強影像-文字對齊。(4) 高效訓練和取樣：我們提出了 Flow-DPM-Solver 以減少採樣步數，並採用高效的字幕標註和選擇來加速收斂。因此，Sana-0.6B 與現代巨型擴散模型（例如 Flux-12B）相比非常有競爭力，其模型大小小 20 倍，吞吐量快 100 倍以上。此外，Sana-0.6B 可以在 16GB 筆記型電腦 GPU 上部署，生成 1024×1024 解析度影像所需時間不到 1 秒。Sana 使得低成本內容創作成為可能。程式碼和模型將公開發布。

請務必查閱排程器指南，瞭解如何探索排程器速度與質量之間的權衡，並檢視跨管道重用元件部分，瞭解如何有效地將相同元件載入到多個管道中。

此管道由 lawrence-cj 和 chenjy2003 貢獻。原始程式碼庫可在此處找到。原始權重可在 hf.co/Efficient-Large-Model 下找到。

可用模型

模型	推薦資料型別
`Efficient-Large-Model/Sana_1600M_1024px_BF16_diffusers`	`torch.bfloat16`
`Efficient-Large-Model/Sana_1600M_1024px_diffusers`	`torch.float16`
`Efficient-Large-Model/Sana_1600M_1024px_MultiLing_diffusers`	`torch.float16`
`Efficient-Large-Model/Sana_1600M_512px_diffusers`	`torch.float16`
`Efficient-Large-Model/Sana_1600M_512px_MultiLing_diffusers`	`torch.float16`
`Efficient-Large-Model/Sana_600M_1024px_diffusers`	`torch.float16`
`Efficient-Large-Model/Sana_600M_512px_diffusers`	`torch.float16`

更多資訊請參考此集合。

注意：推薦的資料型別是針對 Transformer 權重的。文字編碼器和 VAE 權重必須保持為 `torch.bfloat16` 或 `torch.float32` 才能使模型正常工作。請參考下面的推理示例，瞭解如何使用推薦的資料型別載入模型。

請務必為下載的模型檢查點傳遞 `variant` 引數，以減少磁碟空間佔用。對於推薦資料型別為 `torch.float16` 的模型，請將其設定為 `"fp16"`；對於推薦資料型別為 `torch.bfloat16` 的模型，請將其設定為 `"bf16"`。預設情況下，會下載 `torch.float32` 權重，這會佔用兩倍的磁碟儲存空間。此外，`torch.float32` 權重可以透過指定 `torch_dtype` 引數進行即時下轉換。請參閱文件瞭解更多資訊。

量化

量化有助於透過以較低精度資料型別儲存模型權重來減少大型模型的記憶體需求。但是，量化對影片質量的影響可能因影片模型而異。

有關支援的量化後端以及如何選擇適合您用例的量化後端，請參閱量化概述。以下示例演示瞭如何使用 bitsandbytes 載入量化的 SanaPipeline 進行推理。

import torch
from diffusers import BitsAndBytesConfig as DiffusersBitsAndBytesConfig, SanaTransformer2DModel, SanaPipeline
from transformers import BitsAndBytesConfig as BitsAndBytesConfig, AutoModel

quant_config = BitsAndBytesConfig(load_in_8bit=True)
text_encoder_8bit = AutoModel.from_pretrained(
    "Efficient-Large-Model/Sana_1600M_1024px_diffusers",
    subfolder="text_encoder",
    quantization_config=quant_config,
    torch_dtype=torch.float16,
)

quant_config = DiffusersBitsAndBytesConfig(load_in_8bit=True)
transformer_8bit = SanaTransformer2DModel.from_pretrained(
    "Efficient-Large-Model/Sana_1600M_1024px_diffusers",
    subfolder="transformer",
    quantization_config=quant_config,
    torch_dtype=torch.float16,
)

pipeline = SanaPipeline.from_pretrained(
    "Efficient-Large-Model/Sana_1600M_1024px_diffusers",
    text_encoder=text_encoder_8bit,
    transformer=transformer_8bit,
    torch_dtype=torch.float16,
    device_map="balanced",
)

prompt = "a tiny astronaut hatching from an egg on the moon"
image = pipeline(prompt).images[0]
image.save("sana.png")

Diffusers

SanaPipeline

量化

< 來源 >

class diffusers.SanaPipeline

__call__

disable_vae_slicing

disable_vae_tiling

enable_vae_slicing

enable_vae_tiling

encode_prompt

SanaPAGPipeline

class diffusers.SanaPAGPipeline