Diffusers 文件

CosmosTransformer3DModel

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

CosmosTransformer3DModel

NVIDIA 在 Cosmos 世界基礎模型平臺物理 AI 中引入了用於 3D 影片狀資料的擴散 Transformer 模型。

該模型可以透過以下程式碼片段載入。

from diffusers import CosmosTransformer3DModel

transformer = CosmosTransformer3DModel.from_pretrained("nvidia/Cosmos-1.0-Diffusion-7B-Text2World", subfolder="transformer", torch_dtype=torch.bfloat16)

CosmosTransformer3DModel

class diffusers.CosmosTransformer3DModel

< >

( in_channels: int = 16 out_channels: int = 16 num_attention_heads: int = 32 attention_head_dim: int = 128 num_layers: int = 28 mlp_ratio: float = 4.0 text_embed_dim: int = 1024 adaln_lora_dim: int = 256 max_size: typing.Tuple[int, int, int] = (128, 240, 240) patch_size: typing.Tuple[int, int, int] = (1, 2, 2) rope_scale: typing.Tuple[float, float, float] = (2.0, 1.0, 1.0) concat_padding_mask: bool = True extra_pos_embed_type: typing.Optional[str] = 'learnable' )

引數

  • in_channels (int, 預設為 16) — 輸入中的通道數。
  • out_channels (int, 預設為 16) — 輸出中的通道數。
  • num_attention_heads (int, 預設為 32) — 用於多頭注意力的頭部數量。
  • attention_head_dim (int, 預設為 128) — 每個注意力頭中的通道數。
  • num_layers (int, 預設為 28) — 要使用的 transformer 塊的層數。
  • mlp_ratio (float, 預設為 4.0) — 前饋網路中隱藏層大小與輸入大小的比率。
  • text_embed_dim (int, 預設為 4096) — 文字編碼器中文字嵌入的輸入維度。
  • adaln_lora_dim (int, 預設為 256) — Adaptive LayerNorm LoRA 層的隱藏維度。
  • max_size (Tuple[int, int, int], 預設為 (128, 240, 240)) — 輸入潛在張量在時間、高度和寬度維度上的最大大小。
  • patch_size (Tuple[int, int, int], 預設為 (1, 2, 2)) — 用於在時間、高度和寬度維度上對輸入潛在張量進行分塊的補丁大小。
  • rope_scale (Tuple[float, float, float], 預設為 (2.0, 1.0, 1.0)) — 用於 RoPE 在時間、高度和寬度維度上的縮放因子。
  • concat_padding_mask (bool, 預設為 True) — 是否將填充掩碼連線到輸入潛在張量。
  • extra_pos_embed_type (str, 可選, 預設為 learnable) — 要使用的額外位置嵌入的型別。可以是 Nonelearnable

Cosmos 中使用的影片狀資料的 Transformer 模型。

Transformer2DModelOutput

class diffusers.models.modeling_outputs.Transformer2DModelOutput

< >

( sample: torch.Tensor )

引數

  • sample (形狀為 (batch_size, num_channels, height, width)torch.Tensor 或如果 Transformer2DModel 是離散的,則為 (batch size, num_vector_embeds - 1, num_latent_pixels)) — 在 encoder_hidden_states 輸入上進行條件化的隱藏狀態輸出。如果是離散的,則返回未噪聲化潛在畫素的機率分佈。

Transformer2DModel 的輸出。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.