Diffusers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

K-Diffusion

k-diffusion 是由 Katherine Crowson 建立的流行庫。我們提供了 StableDiffusionKDiffusionPipeline 和 StableDiffusionXLKDiffusionPipeline，讓您可以使用 k-diffusion 中的取樣器執行 Stable Diffusion。

請注意，k-diffusion 中的大多數取樣器都已在 Diffusers 中實現，我們建議使用現有的排程器。您可以在此處找到 k-diffusion 取樣器與 Diffusers 中排程器之間的對映關係。

StableDiffusionKDiffusionPipeline

class diffusers.StableDiffusionKDiffusionPipeline

< 來源 >

( vae: AutoencoderKL text_encoder: CLIPTextModel tokenizer: typing.Union[transformers.models.clip.tokenization_clip.CLIPTokenizer, transformers.models.clip.tokenization_clip_fast.CLIPTokenizerFast] unet: UNet2DConditionModel scheduler: KarrasDiffusionSchedulers safety_checker: StableDiffusionSafetyChecker feature_extractor: CLIPImageProcessor requires_safety_checker: bool = True )

引數

vae (AutoencoderKL) — 用於將影像編碼和解碼為潛在表示的變分自編碼器（VAE）模型。
text_encoder (CLIPTextModel) — 凍結的文字編碼器。Stable Diffusion 使用 CLIP 的文字部分，特別是 clip-vit-large-patch14 變體。
tokenizer (CLIPTokenizer) — CLIPTokenizer 類的分詞器。
unet (UNet2DConditionModel) — 用於對編碼影像潛在表示進行去噪的條件 U-Net 架構。
scheduler (SchedulerMixin) — 用於與 unet 結合去噪編碼影像潛在表示的排程器。可以是 DDIMScheduler、LMSDiscreteScheduler 或 PNDMScheduler 之一。
safety_checker (StableDiffusionSafetyChecker) — 分類模組，用於評估生成的影像是否可能具有冒犯性或有害。詳情請參閱模型卡。
feature_extractor (CLIPImageProcessor) — 用於從生成的影像中提取特徵作為 safety_checker 輸入的模型。

用於使用 Stable Diffusion 進行文字到影像生成的管道。

此模型繼承自 DiffusionPipeline。請檢視超類文件，瞭解該庫為所有管道實現的通用方法（例如下載或儲存、在特定裝置上執行等）

該管道還繼承了以下載入方法

load_textual_inversion() 用於載入文字反演嵌入
load_lora_weights() 用於載入 LoRA 權重
save_lora_weights() 用於儲存 LoRA 權重

這是一個實驗性管道，未來可能會有變化。

encode_prompt

< 來源 >

( prompt device num_images_per_prompt do_classifier_free_guidance negative_prompt = None prompt_embeds: typing.Optional[torch.Tensor] = None negative_prompt_embeds: typing.Optional[torch.Tensor] = None lora_scale: typing.Optional[float] = None clip_skip: typing.Optional[int] = None )

引數

prompt (str 或 List[str], 可選) — 待編碼的提示詞
device — (torch.device)：torch 裝置
num_images_per_prompt (int) — 每個提示詞應生成的影像數量
do_classifier_free_guidance (bool) — 是否使用分類器自由引導
negative_prompt (str 或 List[str], 可選) — 不用於引導影像生成的提示詞。如果未定義，則必須傳入 negative_prompt_embeds。在使用非引導模式（即 guidance_scale 小於 1）時，此引數將被忽略。
prompt_embeds (torch.Tensor, 可選) — 預生成的文字嵌入。可用於輕鬆調整文字輸入，例如提示詞權重。如果未提供，文字嵌入將從 prompt 輸入引數生成。
negative_prompt_embeds (torch.Tensor, 可選) — 預生成的負面文字嵌入。可用於輕鬆調整文字輸入，例如提示詞權重。如果未提供，negative_prompt_embeds 將從 negative_prompt 輸入引數生成。
lora_scale (float, 可選) — 將應用於文字編碼器所有 LoRA 層的 LoRA 縮放。
clip_skip (int, 可選) — 在計算提示嵌入時從 CLIP 中跳過的層數。值為 1 表示將使用預最終層的輸出計算提示嵌入。

將提示編碼為文字編碼器隱藏狀態。

StableDiffusionXLKDiffusionPipeline

class diffusers.StableDiffusionXLKDiffusionPipeline

< 來源 >

( vae: AutoencoderKL text_encoder: CLIPTextModel text_encoder_2: CLIPTextModelWithProjection tokenizer: CLIPTokenizer tokenizer_2: CLIPTokenizer unet: UNet2DConditionModel scheduler: KarrasDiffusionSchedulers force_zeros_for_empty_prompt: bool = True )

encode_prompt

< 源 >

( prompt: str prompt_2: typing.Optional[str] = None device: typing.Optional[torch.device] = None num_images_per_prompt: int = 1 do_classifier_free_guidance: bool = True negative_prompt: typing.Optional[str] = None negative_prompt_2: typing.Optional[str] = None prompt_embeds: typing.Optional[torch.Tensor] = None negative_prompt_embeds: typing.Optional[torch.Tensor] = None pooled_prompt_embeds: typing.Optional[torch.Tensor] = None negative_pooled_prompt_embeds: typing.Optional[torch.Tensor] = None lora_scale: typing.Optional[float] = None clip_skip: typing.Optional[int] = None )

引數

prompt (str 或 List[str], 可選) — 待編碼的提示詞
prompt_2 (str 或 List[str], 可選) — 傳送到 tokenizer_2 和 text_encoder_2 的提示詞。如果未定義，prompt 將用於兩個文字編碼器。
device — (torch.device): torch 裝置
num_images_per_prompt (int) — 每個提示詞應生成的影像數量
do_classifier_free_guidance (bool) — 是否使用分類器自由引導
negative_prompt (str 或 List[str], 可選) — 不用於引導影像生成的提示詞。如果未定義，則必須傳入 negative_prompt_embeds。當不使用引導時（即，如果 guidance_scale 小於 1），此引數將被忽略。
negative_prompt_2 (str 或 List[str], 可選) — 傳送到 tokenizer_2 和 text_encoder_2 的不用於引導影像生成的提示詞。如果未定義，negative_prompt 將用於兩個文字編碼器。
prompt_embeds (torch.Tensor, 可選) — 預先生成的文字嵌入。可用於輕鬆調整文字輸入，例如提示詞權重。如果未提供，文字嵌入將從 prompt 輸入引數生成。
negative_prompt_embeds (torch.Tensor, 可選) — 預先生成的負面文字嵌入。可用於輕鬆調整文字輸入，例如提示詞權重。如果未提供，負面提示詞嵌入將從 negative_prompt 輸入引數生成。
pooled_prompt_embeds (torch.Tensor, 可選) — 預先生成的池化文字嵌入。可用於輕鬆調整文字輸入，例如提示詞權重。如果未提供，池化文字嵌入將從 prompt 輸入引數生成。
negative_pooled_prompt_embeds (torch.Tensor, 可選) — 預先生成的負面池化文字嵌入。可用於輕鬆調整文字輸入，例如提示詞權重。如果未提供，池化負面提示詞嵌入將從 negative_prompt 輸入引數生成。
lora_scale (float, 可選) — 應用於文字編碼器所有 LoRA 層的 LoRA 比例（如果 LoRA 層已載入）。
clip_skip (int, 可選) — 在計算提示詞嵌入時要跳過 CLIP 的層數。值為 1 表示將使用倒數第二層的輸出計算提示詞嵌入。

將提示編碼為文字編碼器隱藏狀態。

< > 在 GitHub 上更新

←影像修復潛在上取樣器→