Diffusers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

LuminaNextDiT2DModel

Lumina-T2X 中用於 2D 資料的下一代擴散 Transformer 模型。

LuminaNextDiT2DModel

類 diffusers.LuminaNextDiT2DModel

< 源 >

( sample_size: int = 128 patch_size: typing.Optional[int] = 2 in_channels: typing.Optional[int] = 4 hidden_size: typing.Optional[int] = 2304 num_layers: typing.Optional[int] = 32 num_attention_heads: typing.Optional[int] = 32 num_kv_heads: typing.Optional[int] = None multiple_of: typing.Optional[int] = 256 ffn_dim_multiplier: typing.Optional[float] = None norm_eps: typing.Optional[float] = 1e-05 learn_sigma: typing.Optional[bool] = True qk_norm: typing.Optional[bool] = True cross_attention_dim: typing.Optional[int] = 2048 scaling_factor: typing.Optional[float] = 1.0 )

引數

sample_size (int) — 潛在影像的寬度。由於此引數用於學習位置嵌入，因此在訓練期間是固定的。
patch_size (int, 可選, (int, 可選, 預設為 2) — 影像中每個 patch 的大小。此引數定義了饋送到模型的 patch 解析度。
in_channels (int, 可選, 預設為 4) — 模型的輸入通道數。通常與輸入影像的通道數匹配。
hidden_size (int, 可選, 預設為 4096) — 模型中隱藏層的維度。此引數決定了模型隱藏表示的寬度。
num_layers (int, 可選, 預設為 32) — 模型中的層數。這定義了神經網路的深度。
num_attention_heads (int, 可選, 預設為 32) — 每個注意力層中的注意力頭數。此引數指定了使用的獨立注意力機制的數量。
num_kv_heads (int, 可選, 預設為 8) — 注意力機制中 key-value 頭的數量，如果與注意力頭數量不同。如果為 None，則預設為 num_attention_heads。
multiple_of (int, 可選, 預設為 256) — 隱藏大小應為的倍數。這有助於最佳化某些硬體配置。
ffn_dim_multiplier (float, 可選) — 前饋網路維度的乘數。如果為 None，則根據模型配置使用預設值。
norm_eps (float, 可選, 預設為 1e-5) — 新增到歸一化層分母的小值，用於數值穩定性。
learn_sigma (bool, 可選, 預設為 True) — 模型是否應學習 sigma 引數，該引數可能與預測中的不確定性或方差相關。
qk_norm (bool, 可選, 預設為 True) — 指示注意力機制中的查詢和鍵是否應被歸一化。
cross_attention_dim (int, 可選, 預設為 2048) — 文字嵌入的維度。此引數定義了模型中使用的文字表示的大小。
scaling_factor (float, 可選, 預設為 1.0) — 應用於模型中某些引數或層的縮放因子。這可用於調整模型操作的整體比例。

LuminaNextDiT：帶有 Transformer 主幹的擴散模型。

繼承 ModelMixin 和 ConfigMixin 以與 diffusers 的取樣器 StableDiffusionPipeline 相容。

前向

< 源 >

( hidden_states: Tensor timestep: Tensor encoder_hidden_states: Tensor encoder_mask: Tensor image_rotary_emb: Tensor cross_attention_kwargs: typing.Dict[str, typing.Any] = None return_dict = True )

引數

hidden_states (torch.Tensor) — 形狀為 (N, C, H, W) 的輸入張量。
timestep (torch.Tensor) — 形狀為 (N,) 的擴散時間步長張量。
encoder_hidden_states (torch.Tensor) — 形狀為 (N, D) 的標題特徵張量。
encoder_mask (torch.Tensor) — 形狀為 (N, L) 的標題掩碼張量。

LuminaNextDiT 的前向傳播。

< > 在 GitHub 上更新

←Lumina2Transformer2DModel MochiTransformer3DModel→