Diffusers 文件

LuminaNextDiT2DModel

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

LuminaNextDiT2DModel

Lumina-T2X 中用於 2D 資料的下一代擴散 Transformer 模型。

LuminaNextDiT2DModel

diffusers.LuminaNextDiT2DModel

< >

( sample_size: int = 128 patch_size: typing.Optional[int] = 2 in_channels: typing.Optional[int] = 4 hidden_size: typing.Optional[int] = 2304 num_layers: typing.Optional[int] = 32 num_attention_heads: typing.Optional[int] = 32 num_kv_heads: typing.Optional[int] = None multiple_of: typing.Optional[int] = 256 ffn_dim_multiplier: typing.Optional[float] = None norm_eps: typing.Optional[float] = 1e-05 learn_sigma: typing.Optional[bool] = True qk_norm: typing.Optional[bool] = True cross_attention_dim: typing.Optional[int] = 2048 scaling_factor: typing.Optional[float] = 1.0 )

引數

  • sample_size (int) — 潛在影像的寬度。由於此引數用於學習位置嵌入,因此在訓練期間是固定的。
  • patch_size (int, 可選, (int, 可選, 預設為 2) — 影像中每個 patch 的大小。此引數定義了饋送到模型的 patch 解析度。
  • in_channels (int, 可選, 預設為 4) — 模型的輸入通道數。通常與輸入影像的通道數匹配。
  • hidden_size (int, 可選, 預設為 4096) — 模型中隱藏層的維度。此引數決定了模型隱藏表示的寬度。
  • num_layers (int, 可選, 預設為 32) — 模型中的層數。這定義了神經網路的深度。
  • num_attention_heads (int, 可選, 預設為 32) — 每個注意力層中的注意力頭數。此引數指定了使用的獨立注意力機制的數量。
  • num_kv_heads (int, 可選, 預設為 8) — 注意力機制中 key-value 頭的數量,如果與注意力頭數量不同。如果為 None,則預設為 num_attention_heads。
  • multiple_of (int, 可選, 預設為 256) — 隱藏大小應為的倍數。這有助於最佳化某些硬體配置。
  • ffn_dim_multiplier (float, 可選) — 前饋網路維度的乘數。如果為 None,則根據模型配置使用預設值。
  • norm_eps (float, 可選, 預設為 1e-5) — 新增到歸一化層分母的小值,用於數值穩定性。
  • learn_sigma (bool, 可選, 預設為 True) — 模型是否應學習 sigma 引數,該引數可能與預測中的不確定性或方差相關。
  • qk_norm (bool, 可選, 預設為 True) — 指示注意力機制中的查詢和鍵是否應被歸一化。
  • cross_attention_dim (int, 可選, 預設為 2048) — 文字嵌入的維度。此引數定義了模型中使用的文字表示的大小。
  • scaling_factor (float, 可選, 預設為 1.0) — 應用於模型中某些引數或層的縮放因子。這可用於調整模型操作的整體比例。

LuminaNextDiT:帶有 Transformer 主幹的擴散模型。

繼承 ModelMixin 和 ConfigMixin 以與 diffusers 的取樣器 StableDiffusionPipeline 相容。

前向

< >

( hidden_states: Tensor timestep: Tensor encoder_hidden_states: Tensor encoder_mask: Tensor image_rotary_emb: Tensor cross_attention_kwargs: typing.Dict[str, typing.Any] = None return_dict = True )

引數

  • hidden_states (torch.Tensor) — 形狀為 (N, C, H, W) 的輸入張量。
  • timestep (torch.Tensor) — 形狀為 (N,) 的擴散時間步長張量。
  • encoder_hidden_states (torch.Tensor) — 形狀為 (N, D) 的標題特徵張量。
  • encoder_mask (torch.Tensor) — 形狀為 (N, L) 的標題掩碼張量。

LuminaNextDiT 的前向傳播。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.