Diffusers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Lumina2Transformer2DModel

Alpha-VLLM 在 Lumina Image 2.0 中引入了用於 3D 影片狀資料的擴散 Transformer 模型。

該模型可以透過以下程式碼片段載入。

from diffusers import Lumina2Transformer2DModel

transformer = Lumina2Transformer2DModel.from_pretrained("Alpha-VLLM/Lumina-Image-2.0", subfolder="transformer", torch_dtype=torch.bfloat16)

Lumina2Transformer2DModel

類 diffusers.Lumina2Transformer2DModel

< 來源 >

( sample_size: int = 128 patch_size: int = 2 in_channels: int = 16 out_channels: typing.Optional[int] = None hidden_size: int = 2304 num_layers: int = 26 num_refiner_layers: int = 2 num_attention_heads: int = 24 num_kv_heads: int = 8 multiple_of: int = 256 ffn_dim_multiplier: typing.Optional[float] = None norm_eps: float = 1e-05 scaling_factor: float = 1.0 axes_dim_rope: typing.Tuple[int, int, int] = (32, 32, 32) axes_lens: typing.Tuple[int, int, int] = (300, 512, 512) cap_feat_dim: int = 1024 )

引數

sample_size (int) — 潛在影像的寬度。此引數在訓練期間是固定的，因為它用於學習多個位置嵌入。
patch_size (int, 可選, (int, 可選, 預設為 2) — 影像中每個塊的大小。此引數定義輸入到模型的塊的解析度。
in_channels (int, 可選, 預設為 4) — 模型的輸入通道數。通常，這與輸入影像中的通道數匹配。
hidden_size (int, 可選, 預設為 4096) — 模型中隱藏層的維度。此引數決定模型隱藏表示的寬度。
num_layers (int, 可選, 預設為 32) — 模型中的層數。這定義了神經網路的深度。
num_attention_heads (int, 可選, 預設為 32) — 每個注意力層中的注意力頭數量。此引數指定使用的獨立注意力機制的數量。
num_kv_heads (int, 可選, 預設為 8) — 注意力機制中鍵值頭的數量，如果與注意力頭的數量不同。如果為 None，則預設為 num_attention_heads。
multiple_of (int, 可選, 預設為 256) — 隱藏大小應為其倍數的因子。這有助於最佳化某些硬體配置。
ffn_dim_multiplier (float, 可選) — 前饋網路的維度乘數。如果為 None，它將使用基於模型配置的預設值。
norm_eps (float, 可選, 預設為 1e-5) — 新增到歸一化層分母中的一個小值，用於數值穩定性。
scaling_factor (float, 可選, 預設為 1.0) — 應用於模型中某些引數或層的縮放因子。這可用於調整模型操作的整體比例。

Lumina2NextDiT: 具有 Transformer 主幹的擴散模型。

Transformer2DModelOutput

類 diffusers.models.modeling_outputs.Transformer2DModelOutput

< 來源 >

( sample: torch.Tensor )

引數

sample (形狀為 (batch_size, num_channels, height, width) 的 torch.Tensor 或如果是離散的 Transformer2DModel 則為 (batch size, num_vector_embeds - 1, num_latent_pixels)) — 在 encoder_hidden_states 輸入條件下輸出的隱藏狀態。如果是離散的，則返回未噪聲化潛在畫素的機率分佈。

Transformer2DModel 的輸出。

< > 在 GitHub 上更新

←LTXVideoTransformer3DModel LuminaNextDiT2DModel→