Diffusers 文件

Lumina2Transformer2DModel

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Lumina2Transformer2DModel

Alpha-VLLM 在 Lumina Image 2.0 中引入了用於 3D 影片狀資料的擴散 Transformer 模型。

該模型可以透過以下程式碼片段載入。

from diffusers import Lumina2Transformer2DModel

transformer = Lumina2Transformer2DModel.from_pretrained("Alpha-VLLM/Lumina-Image-2.0", subfolder="transformer", torch_dtype=torch.bfloat16)

Lumina2Transformer2DModel

diffusers.Lumina2Transformer2DModel

< >

( sample_size: int = 128 patch_size: int = 2 in_channels: int = 16 out_channels: typing.Optional[int] = None hidden_size: int = 2304 num_layers: int = 26 num_refiner_layers: int = 2 num_attention_heads: int = 24 num_kv_heads: int = 8 multiple_of: int = 256 ffn_dim_multiplier: typing.Optional[float] = None norm_eps: float = 1e-05 scaling_factor: float = 1.0 axes_dim_rope: typing.Tuple[int, int, int] = (32, 32, 32) axes_lens: typing.Tuple[int, int, int] = (300, 512, 512) cap_feat_dim: int = 1024 )

引數

  • sample_size (int) — 潛在影像的寬度。此引數在訓練期間是固定的,因為它用於學習多個位置嵌入。
  • patch_size (int, 可選, (int, 可選, 預設為 2) — 影像中每個塊的大小。此引數定義輸入到模型的塊的解析度。
  • in_channels (int, 可選, 預設為 4) — 模型的輸入通道數。通常,這與輸入影像中的通道數匹配。
  • hidden_size (int, 可選, 預設為 4096) — 模型中隱藏層的維度。此引數決定模型隱藏表示的寬度。
  • num_layers (int, 可選, 預設為 32) — 模型中的層數。這定義了神經網路的深度。
  • num_attention_heads (int, 可選, 預設為 32) — 每個注意力層中的注意力頭數量。此引數指定使用的獨立注意力機制的數量。
  • num_kv_heads (int, 可選, 預設為 8) — 注意力機制中鍵值頭的數量,如果與注意力頭的數量不同。如果為 None,則預設為 num_attention_heads。
  • multiple_of (int, 可選, 預設為 256) — 隱藏大小應為其倍數的因子。這有助於最佳化某些硬體配置。
  • ffn_dim_multiplier (float, 可選) — 前饋網路的維度乘數。如果為 None,它將使用基於模型配置的預設值。
  • norm_eps (float, 可選, 預設為 1e-5) — 新增到歸一化層分母中的一個小值,用於數值穩定性。
  • scaling_factor (float, 可選, 預設為 1.0) — 應用於模型中某些引數或層的縮放因子。這可用於調整模型操作的整體比例。

Lumina2NextDiT: 具有 Transformer 主幹的擴散模型。

Transformer2DModelOutput

diffusers.models.modeling_outputs.Transformer2DModelOutput

< >

( sample: torch.Tensor )

引數

  • sample (形狀為 (batch_size, num_channels, height, width)torch.Tensor 或如果是離散的 Transformer2DModel 則為 (batch size, num_vector_embeds - 1, num_latent_pixels)) — 在 encoder_hidden_states 輸入條件下輸出的隱藏狀態。如果是離散的,則返回未噪聲化潛在畫素的機率分佈。

Transformer2DModel 的輸出。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.