Diffusers 文件
LuminaNextDiT2DModel
並獲得增強的文件體驗
開始使用
LuminaNextDiT2DModel
Lumina-T2X 中用於 2D 資料的下一代擴散 Transformer 模型。
LuminaNextDiT2DModel
類 diffusers.LuminaNextDiT2DModel
< 源 >( sample_size: int = 128 patch_size: typing.Optional[int] = 2 in_channels: typing.Optional[int] = 4 hidden_size: typing.Optional[int] = 2304 num_layers: typing.Optional[int] = 32 num_attention_heads: typing.Optional[int] = 32 num_kv_heads: typing.Optional[int] = None multiple_of: typing.Optional[int] = 256 ffn_dim_multiplier: typing.Optional[float] = None norm_eps: typing.Optional[float] = 1e-05 learn_sigma: typing.Optional[bool] = True qk_norm: typing.Optional[bool] = True cross_attention_dim: typing.Optional[int] = 2048 scaling_factor: typing.Optional[float] = 1.0 )
引數
- sample_size (
int
) — 潛在影像的寬度。由於此引數用於學習位置嵌入,因此在訓練期間是固定的。 - patch_size (
int
, 可選, (int
, 可選, 預設為 2) — 影像中每個 patch 的大小。此引數定義了饋送到模型的 patch 解析度。 - in_channels (
int
, 可選, 預設為 4) — 模型的輸入通道數。通常與輸入影像的通道數匹配。 - hidden_size (
int
, 可選, 預設為 4096) — 模型中隱藏層的維度。此引數決定了模型隱藏表示的寬度。 - num_layers (
int
, 可選, 預設為 32) — 模型中的層數。這定義了神經網路的深度。 - num_attention_heads (
int
, 可選, 預設為 32) — 每個注意力層中的注意力頭數。此引數指定了使用的獨立注意力機制的數量。 - num_kv_heads (
int
, 可選, 預設為 8) — 注意力機制中 key-value 頭的數量,如果與注意力頭數量不同。如果為 None,則預設為 num_attention_heads。 - multiple_of (
int
, 可選, 預設為 256) — 隱藏大小應為的倍數。這有助於最佳化某些硬體配置。 - ffn_dim_multiplier (
float
, 可選) — 前饋網路維度的乘數。如果為 None,則根據模型配置使用預設值。 - norm_eps (
float
, 可選, 預設為 1e-5) — 新增到歸一化層分母的小值,用於數值穩定性。 - learn_sigma (
bool
, 可選, 預設為 True) — 模型是否應學習 sigma 引數,該引數可能與預測中的不確定性或方差相關。 - qk_norm (
bool
, 可選, 預設為 True) — 指示注意力機制中的查詢和鍵是否應被歸一化。 - cross_attention_dim (
int
, 可選, 預設為 2048) — 文字嵌入的維度。此引數定義了模型中使用的文字表示的大小。 - scaling_factor (
float
, 可選, 預設為 1.0) — 應用於模型中某些引數或層的縮放因子。這可用於調整模型操作的整體比例。
LuminaNextDiT:帶有 Transformer 主幹的擴散模型。
繼承 ModelMixin 和 ConfigMixin 以與 diffusers 的取樣器 StableDiffusionPipeline 相容。
前向
< 源 >( hidden_states: Tensor timestep: Tensor encoder_hidden_states: Tensor encoder_mask: Tensor image_rotary_emb: Tensor cross_attention_kwargs: typing.Dict[str, typing.Any] = None return_dict = True )
LuminaNextDiT 的前向傳播。