SegFormer

概述

SegFormer 模型由 Enze Xie、Wenhai Wang、Zhiding Yu、Anima Anandkumar、Jose M. Alvarez 和 Ping Luo 在論文《SegFormer：簡單高效的Transformer語義分割設計》中提出。該模型由一個分層 Transformer 編碼器和一個輕量級的全 MLP 解碼頭組成，在 ADE20K 和 Cityscapes 等影像分割基準測試中取得了優異的成果。

論文摘要如下：

我們提出了 SegFormer，一個簡單、高效且強大的語義分割框架，它將 Transformer 與輕量級多層感知器（MLP）解碼器統一起來。SegFormer 有兩個吸引人的特點：1) SegFormer 包含一個新穎的分層結構 Transformer 編碼器，可輸出多尺度特徵。它不需要位置編碼，從而避免了位置編碼的插值，當測試解析度與訓練解析度不同時，這會導致效能下降。2) SegFormer 避免了複雜的解碼器。所提出的 MLP 解碼器聚合來自不同層的資訊，從而結合區域性注意力和全域性注意力來呈現強大的表示。我們表明，這種簡單輕量化的設計是在 Transformer 上實現高效分割的關鍵。我們擴充套件我們的方法，得到從 SegFormer-B0 到 SegFormer-B5 的一系列模型，達到了比以往同類模型顯著更好的效能和效率。例如，SegFormer-B4 在 ADE20K 上以 64M 引數實現了 50.3% 的 mIoU，比之前最好的方法小 5 倍，效能好 2.2%。我們最好的模型 SegFormer-B5 在 Cityscapes 驗證集上達到了 84.0% 的 mIoU，並在 Cityscapes-C 上展現了出色的零樣本魯棒性。

下圖說明了 SegFormer 的架構。摘自原始論文。

此模型由 nielsr 貢獻。模型的 TensorFlow 版本由 sayakpaul 貢獻。原始程式碼可以在這裡找到。

使用技巧

SegFormer 由一個分層 Transformer 編碼器和一個輕量級的全 MLP 解碼頭組成。`SegformerModel` 是分層 Transformer 編碼器（在論文中也稱為 Mix Transformer 或 MiT）。`SegformerForSemanticSegmentation` 在其之上添加了全 MLP 解碼頭以執行影像的語義分割。此外，還有 `SegformerForImageClassification`，可用於——你猜對了——對影像進行分類。SegFormer 的作者首先在 ImageNet-1k 上對 Transformer 編碼器進行預訓練以對影像進行分類。接下來，他們扔掉分類頭，並用全 MLP 解碼頭取而代之。然後，他們將整個模型在 ADE20K、Cityscapes 和 COCO-stuff 上進行微調，這些都是語義分割的重要基準。所有檢查點都可以在模型中心上找到。
開始使用 SegFormer 的最快方法是檢視示例筆記本（其中展示了推理和在自定義資料上進行微調）。也可以檢視介紹 SegFormer 並說明如何在自定義資料上進行微調的博文。
TensorFlow 使用者應參考此倉庫，其中展示了開箱即用的推理和微調。
您也可以在Hugging Face Spaces 上的這個互動式演示中嘗試在自定義影像上使用 SegFormer 模型。
SegFormer 適用於任何輸入尺寸，因為它會將輸入填充為 `config.patch_sizes` 的倍數。
可以使用 `SegformerImageProcessor` 為模型準備影像和相應的分割圖。請注意，這個影像處理器相當基礎，不包括原始論文中使用的所有資料增強。原始的預處理流程（例如，用於 ADE20k 資料集）可以在這裡找到。最重要的預處理步驟是，影像和分割圖被隨機裁剪和填充到相同的大小，例如 512x512 或 640x640，然後進行歸一化。
另外需要記住的一點是，在初始化 `SegformerImageProcessor` 時，可以將 `do_reduce_labels` 設定為 `True` 或 `False`。在某些資料集中（如 ADE20k），標註的分割圖中索引 0 用於背景。然而，ADE20k 在其 150 個標籤中不包括“背景”類。因此，`do_reduce_labels` 用於將所有標籤減 1，並確保不為背景類計算損失（即，它將標註圖中的 0 替換為 255，這是 `SegformerForSemanticSegmentation` 使用的損失函式的 *ignore_index*）。然而，其他資料集使用索引 0 作為背景類，並將此類作為所有標籤的一部分。在這種情況下，`do_reduce_labels` 應設定為 `False`，因為也應該為背景類計算損失。
與大多數模型一樣，SegFormer 有不同的尺寸，其詳細資訊可在下表中找到（摘自原始論文的表7）。

模型變體	深度	隱藏層大小	解碼器隱藏層大小	引數 (M)	ImageNet-1k Top 1 準確率
MiT-b0	[2, 2, 2, 2]	[32, 64, 160, 256]	256	3.7	70.5
MiT-b1	[2, 2, 2, 2]	[64, 128, 320, 512]	256	14.0	78.7
MiT-b2	[3, 4, 6, 3]	[64, 128, 320, 512]	768	25.4	81.6
MiT-b3	[3, 4, 18, 3]	[64, 128, 320, 512]	768	45.2	83.1
MiT-b4	[3, 8, 27, 3]	[64, 128, 320, 512]	768	62.6	83.6
MiT-b5	[3, 6, 40, 3]	[64, 128, 320, 512]	768	82.0	83.8

請注意，上表中的 MiT 指的是 SegFormer 中引入的 Mix Transformer 編碼器主幹。關於 SegFormer 在 ADE20k 等分割資料集上的結果，請參閱論文。

資源

一系列官方 Hugging Face 和社群（由 🌎 標誌）資源，幫助您開始使用 SegFormer。

影像分類

`SegformerForImageClassification` 由此示例指令碼和筆記本支援。
影像分類任務指南

語義分割

`SegformerForSemanticSegmentation` 由此示例指令碼支援。
一篇關於在自定義資料集上微調 SegFormer 的部落格文章可以在這裡找到。
更多關於 SegFormer 的演示筆記本（包括推理和在自定義資料集上微調）可以在這裡找到。
`TFSegformerForSemanticSegmentation` 由此示例筆記本支援。
語義分割任務指南

如果您有興趣在此處提交資源，請隨時開啟 Pull Request，我們將對其進行審查！該資源最好能展示一些新內容，而不是重複現有資源。

SegformerConfig

class transformers.SegformerConfig

< 原始碼 >

( num_channels = 3 num_encoder_blocks = 4 depths = [2, 2, 2, 2] sr_ratios = [8, 4, 2, 1] hidden_sizes = [32, 64, 160, 256] patch_sizes = [7, 3, 3, 3] strides = [4, 2, 2, 2] num_attention_heads = [1, 2, 5, 8] mlp_ratios = [4, 4, 4, 4] hidden_act = 'gelu' hidden_dropout_prob = 0.0 attention_probs_dropout_prob = 0.0 classifier_dropout_prob = 0.1 initializer_range = 0.02 drop_path_rate = 0.1 layer_norm_eps = 1e-06 decoder_hidden_size = 256 semantic_loss_ignore_index = 255 **kwargs )

引數

num_channels (int, 可選, 預設為 3) — 輸入通道的數量。
num_encoder_blocks (int, 可選, 預設為 4) — 編碼器塊的數量（即 Mix Transformer 編碼器中的階段數）。
depths (list[int], 可選, 預設為 [2, 2, 2, 2]) — 每個編碼器塊中的層數。
sr_ratios (list[int], 可選, 預設為 [8, 4, 2, 1]) — 每個編碼器塊中的序列縮減比率。
hidden_sizes (list[int], 可選, 預設為 [32, 64, 160, 256]) — 每個編碼器塊的維度。
patch_sizes (list[int], 可選, 預設為 [7, 3, 3, 3]) — 每個編碼器塊之前的補丁大小。
strides (list[int], 可選, 預設為 [4, 2, 2, 2]) — 每個編碼器塊之前的步幅。
num_attention_heads (list[int], 可選, 預設為 [1, 2, 5, 8]) — Transformer 編碼器中每個塊的每個注意力層的注意力頭數量。
mlp_ratios (list[int], 可選, 預設為 [4, 4, 4, 4]) — 編碼器塊中 Mix FFNs 的隱藏層大小與輸入層大小的比率。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，支援 "gelu"、"relu"、"selu" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.0) — 嵌入層、編碼器和池化器中所有全連線層的丟棄機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.0) — 注意力機率的丟棄率。
classifier_dropout_prob (float, 可選, 預設為 0.1) — 分類頭之前的丟棄機率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
drop_path_rate (float, 可選, 預設為 0.1) — 隨機深度的丟棄機率，用於 Transformer 編碼器的塊中。
layer_norm_eps (float, 可選, 預設為 1e-06) — 層歸一化層使用的 epsilon 值。
decoder_hidden_size (int, 可選, 預設為 256) — 全 MLP 解碼頭的維度。
semantic_loss_ignore_index (int, 可選, 預設為 255) — 語義分割模型的損失函式忽略的索引。

這是用於儲存 `SegformerModel` 配置的配置類。它用於根據指定的引數例項化 SegFormer 模型，定義模型架構。使用預設值例項化配置將產生與 SegFormer nvidia/segformer-b0-finetuned-ade-512-512 架構類似的配置。

配置物件繼承自 `PretrainedConfig`，可用於控制模型輸出。有關更多資訊，請閱讀 `PretrainedConfig` 的文件。

示例

>>> from transformers import SegformerModel, SegformerConfig

>>> # Initializing a SegFormer nvidia/segformer-b0-finetuned-ade-512-512 style configuration
>>> configuration = SegformerConfig()

>>> # Initializing a model from the nvidia/segformer-b0-finetuned-ade-512-512 style configuration
>>> model = SegformerModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

SegformerFeatureExtractor

class transformers.SegformerFeatureExtractor

< 原始碼 >

( *args **kwargs )

call

< 原始碼 >

( images segmentation_maps = None **kwargs )

預處理一批影像和可選的分割圖。

重寫 `Preprocessor` 類的 `__call__` 方法，以便影像和分割圖都可以作為位置引數傳入。

post_process_semantic_segmentation

< 原始碼 >

( outputs target_sizes: typing.Optional[list[tuple]] = None ) → semantic_segmentation

引數

outputs (`SegformerForSemanticSegmentation`) — 模型的原始輸出。
target_sizes (list[Tuple], 長度為 batch_size, 可選) — 對應於每個預測請求的最終尺寸（高、寬）的元組列表。如果未設定，預測將不會被調整大小。

語義分割

長度為 `batch_size` 的 `list[torch.Tensor]`，其中每個元素是形狀為（高，寬）的語義分割圖，對應於 `target_sizes` 條目（如果指定了 `target_sizes`）。每個 `torch.Tensor` 的每個條目對應一個語義類別 ID。

將 `SegformerForSemanticSegmentation` 的輸出轉換為語義分割圖。僅支援 PyTorch。

SegformerImageProcessor

class transformers.SegformerImageProcessor

< 原始碼 >

( do_resize: bool = True size: typing.Optional[dict[str, int]] = None resample: Resampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_reduce_labels: bool = False **kwargs )

引數

do_resize (bool, 可選, 預設為 True) — 是否將影像的（高，寬）尺寸調整為指定的 `(size["height"], size["width"])`。可在 `preprocess` 方法中透過 `do_resize` 引數覆蓋。
size (dict[str, int] 可選, 預設為 {"height": 512, "width": 512}): 調整大小後輸出影像的尺寸。可在 `preprocess` 方法中透過 `size` 引數覆蓋。
resample (PILImageResampling, 可選, 預設為 Resampling.BILINEAR) — 調整影像大小時使用的重取樣濾波器。可在 `preprocess` 方法中透過 `resample` 引數覆蓋。
do_rescale (bool, 可選, 預設為 True) — 是否透過指定的縮放因子 `rescale_factor` 來縮放影像。可在 `preprocess` 方法中透過 `do_rescale` 引數覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 是否對影像進行歸一化。可在 `preprocess` 方法中透過 `do_normalize` 引數覆蓋。
do_normalize (bool, 可選, 預設為 True) — 是否對影像進行歸一化。可在 `preprocess` 方法中透過 `do_normalize` 引數覆蓋。
image_mean (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_MEAN) — 如果對影像進行歸一化，則使用的均值。這是一個浮點數或浮點數列表，其長度等於影像中的通道數。可以在 preprocess 方法中使用 image_mean 引數覆蓋此值。
image_std (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_STD) — 如果對影像進行歸一化，則使用的標準差。這是一個浮點數或浮點數列表，其長度等於影像中的通道數。可以在 preprocess 方法中使用 image_std 引數覆蓋此值。
do_reduce_labels (bool, 可選, 預設為 False) — 是否將分割圖的所有標籤值減 1。通常用於背景標籤為 0，且背景本身不包含在資料集的所有類別中的資料集（例如 ADE20k）。背景標籤將被替換為 255。可以在 preprocess 方法中使用 do_reduce_labels 引數覆蓋此值。

構造一個 Segformer 影像處理器。

preprocess

< 原始碼 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] segmentation_maps: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor'], NoneType] = None do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None resample: Resampling = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_reduce_labels: typing.Optional[bool] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )

引數

images (ImageInput) — 待預處理的影像。需要單個或一批畫素值在 0 到 255 範圍內的影像。如果傳入畫素值在 0 到 1 之間的影像，請設定 do_rescale=False。
segmentation_maps (ImageInput, 可選) — 待預處理的分割圖。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 應用 resize 後的影像尺寸。
resample (int, 可選, 預設為 self.resample) — 調整影像大小時使用的重取樣過濾器。可以是 PILImageResampling 列舉之一。僅當 do_resize 設定為 True 時有效。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否將影像畫素值縮放到 [0 - 1] 之間。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果 do_rescale 設定為 True，則用於縮放影像的比例因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 影像均值。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 影像標準差。
do_reduce_labels (bool, 可選, 預設為 self.do_reduce_labels) — 是否將分割圖的所有標籤值減 1。通常用於背景標籤為 0，且背景本身不包含在資料集的所有類別中的資料集（例如 ADE20k）。背景標籤將被替換為 255。
return_tensors (str 或 TensorType, 可選) — 返回的張量型別。可以是以下之一：
- 未設定：返回一個 np.ndarray 列表。
- TensorType.TENSORFLOW 或 'tf'：返回一個 tf.Tensor 型別的批次。
- TensorType.PYTORCH 或 'pt'：返回一個 torch.Tensor 型別的批次。
- TensorType.NUMPY 或 'np'：返回一個 np.ndarray 型別的批次。
- TensorType.JAX 或 'jax'：返回一個 jax.numpy.ndarray 型別的批次。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，則從輸入影像中推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。

預處理一張或一批影像。

post_process_semantic_segmentation

< 原始碼 >

( outputs target_sizes: typing.Optional[list[tuple]] = None ) → semantic_segmentation

引數

outputs (SegformerForSemanticSegmentation) — 模型的原始輸出。
target_sizes (長度為 batch_size 的 list[Tuple], 可選) — 對應於每個預測所需的最終尺寸 (height, width) 的元組列表。如果未設定，預測將不會被調整大小。

語義分割

將 `SegformerForSemanticSegmentation` 的輸出轉換為語義分割圖。僅支援 PyTorch。

Pytorch

隱藏 Pytorch 內容

SegformerModel

class transformers.SegformerModel

< 原始碼 >

( config )

引數

config (SegformerModel) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

原始的 Segformer 模型，輸出原始的隱藏狀態，頂部沒有任何特定的頭部。

該模型繼承自 PreTrainedModel。有關該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等），請檢視超類文件。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 原始碼 >

( pixel_values: FloatTensor output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

引數

pixel_values (形狀為 (batch_size, num_channels, image_size, image_size) 的 torch.FloatTensor) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參見返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參見返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.BaseModelOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutput 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或 config.return_dict=False），包含根據配置（SegformerConfig）和輸入的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，然後是每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

SegformerModel 的 forward 方法覆蓋了 __call__ 特殊方法。

雖然前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

SegformerDecodeHead

class transformers.SegformerDecodeHead

< 原始碼 >

( config )

forward

< 原始碼 >

( encoder_hidden_states: FloatTensor )

SegformerForImageClassification

class transformers.SegformerForImageClassification

< 原始碼 >

( config )

引數

config (SegformerForImageClassification) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

SegFormer 模型，頂部帶有一個影像分類頭（在最終隱藏狀態之上加一個線性層），例如用於 ImageNet。

該模型繼承自 PreTrainedModel。有關該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等），請檢視超類文件。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 原始碼 >

( pixel_values: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.segformer.modeling_segformer.SegFormerImageClassifierOutput 或 tuple(torch.FloatTensor)

引數

pixel_values (形狀為 (batch_size, num_channels, image_size, image_size) 的 torch.FloatTensor, 可選) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
labels (形狀為 (batch_size,) 的 torch.LongTensor, 可選) — 用於計算影像分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels == 1，則計算迴歸損失（均方損失），如果 config.num_labels > 1，則計算分類損失（交叉熵）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關詳細資訊，請參見返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關詳細資訊，請參見返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.models.segformer.modeling_segformer.SegFormerImageClassifierOutput 或 tuple(torch.FloatTensor)

一個 transformers.models.segformer.modeling_segformer.SegFormerImageClassifierOutput 或一個 torch.FloatTensor 元組（如果傳遞 return_dict=False 或 config.return_dict=False），包含根據配置（SegformerConfig）和輸入的不同元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（如果模型有嵌入層，則第一個是嵌入層的輸出，然後是每個階段的輸出），形狀為 (batch_size, num_channels, height, width)。模型在每個階段輸出的隱藏狀態（也稱為特徵圖）。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, patch_size, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

SegformerForImageClassification 的 forward 方法覆蓋了 __call__ 特殊方法。

雖然前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoImageProcessor, SegformerForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("nvidia/segformer-b0-finetuned-ade-512-512")
>>> model = SegformerForImageClassification.from_pretrained("nvidia/segformer-b0-finetuned-ade-512-512")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...

SegformerForSemanticSegmentation

class transformers.SegformerForSemanticSegmentation

< 原始碼 >

( config )

引數

config (SegformerForSemanticSegmentation) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

SegFormer 模型，頂部帶有一個全 MLP 解碼頭，例如用於 ADE20k、CityScapes。

該模型繼承自 PreTrainedModel。有關該庫為其所有模型實現的通用方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等），請檢視超類文件。

該模型也是一個 PyTorch torch.nn.Module 子類。可以像常規 PyTorch 模組一樣使用它，並參考 PyTorch 文件瞭解所有與通用用法和行為相關的事項。

forward

< 原始碼 >

( pixel_values: FloatTensor labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SemanticSegmenterOutput 或 tuple(torch.FloatTensor)

引數

pixel_values (形狀為 (batch_size, num_channels, image_size, image_size) 的 torch.FloatTensor) — 對應於輸入影像的張量。可以使用 {image_processor_class} 獲取畫素值。有關詳細資訊，請參見 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
labels (形狀為 (batch_size, height, width) 的 torch.LongTensor, 可選) — 用於計算損失的真實語義分割圖。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels > 1，則計算分類損失（交叉熵）。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。

transformers.modeling_outputs.SemanticSegmenterOutput 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.SemanticSegmenterOutput 或一個 torch.FloatTensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（SegformerConfig）和輸入，包含不同的元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels, logits_height, logits_width) 的 torch.FloatTensor) — 每個畫素的分類分數。

返回的 logits 不一定與作為輸入傳遞的 pixel_values 具有相同的大小。這是為了避免當用戶需要將 logits 調整到原始影像大小作為後處理時，進行兩次插值並損失一些質量。您應始終檢查 logits 的形狀並根據需要進行調整。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每層的輸出），形狀為 (batch_size, patch_size, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(torch.FloatTensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, patch_size, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

SegformerForSemanticSegmentation 的 forward 方法覆蓋了 __call__ 特殊方法。

雖然前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoImageProcessor, SegformerForSemanticSegmentation
>>> from PIL import Image
>>> import requests

>>> image_processor = AutoImageProcessor.from_pretrained("nvidia/segformer-b0-finetuned-ade-512-512")
>>> model = SegformerForSemanticSegmentation.from_pretrained("nvidia/segformer-b0-finetuned-ade-512-512")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> inputs = image_processor(images=image, return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits  # shape (batch_size, num_labels, height/4, width/4)
>>> list(logits.shape)
[1, 150, 128, 128]

TensorFlow

隱藏 TensorFlow 內容

TFSegformerDecodeHead

class transformers.TFSegformerDecodeHead

< 來源 >

( config: SegformerConfig **kwargs )

呼叫

< 來源 >

( encoder_hidden_states: tf.Tensor training: bool = False )

TFSegformerModel

class transformers.TFSegformerModel

< 來源 >

( config: SegformerConfig *inputs **kwargs )

引數

config (SegformerConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

裸 SegFormer 編碼器（Mix-Transformer），輸出原始的隱藏狀態，頂部沒有任何特定的頭。此模型繼承自 TFPreTrainedModel。請查閱超類文件，瞭解庫為所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭等）。

此模型也是一個 keras.Model 的子類。可以像常規 TF 2.0 Keras 模型一樣使用它，並參考 TF 2.0 文件瞭解所有與常規用法和行為相關的事項。

呼叫

< 來源 >

( pixel_values: tf.Tensor output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: bool = False ) → transformers.modeling_tf_outputs.TFBaseModelOutput 或 tuple(tf.Tensor)

引數

pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]、dict[str, tf.Tensor] 或 dict[str, np.ndarray]，並且每個示例的形狀必須為 (batch_size, num_channels, height, width)) — 畫素值。可以使用 AutoImageProcessor 獲取畫素值。有關詳細資訊，請參閱 SegformerImageProcessor.call()。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。此引數只能在 eager 模式下使用，在 graph 模式下將使用配置中的值。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。此引數只能在 eager 模式下使用，在 graph 模式下將使用配置中的值。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在 eager 模式下使用，在 graph 模式下該值將始終設定為 True。
training (bool, 可選, 預設為 `False“) — 是否將模型用於訓練模式（某些模組如 dropout 模組在訓練和評估之間有不同的行為）。

transformers.modeling_tf_outputs.TFBaseModelOutput 或 tuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFBaseModelOutput 或一個 tf.Tensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（SegformerConfig）和輸入，包含不同的元素。

last_hidden_state (tf.Tensor of shape (batch_size, sequence_length, hidden_size)) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(tf.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — tf.Tensor 的元組（一個用於嵌入層的輸出 + 一個用於每層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
attentions (tuple(tf.Tensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

TFSegformerModel 的 forward 方法覆蓋了 __call__ 特殊方法。

雖然前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoImageProcessor, TFSegformerModel
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("nvidia/mit-b0")
>>> model = TFSegformerModel.from_pretrained("nvidia/mit-b0")

>>> inputs = image_processor(image, return_tensors="tf")
>>> outputs = model(**inputs)

>>> last_hidden_states = outputs.last_hidden_state
>>> list(last_hidden_states.shape)
[1, 256, 16, 16]

TFSegformerForImageClassification

class transformers.TFSegformerForImageClassification

< 來源 >

( config: SegformerConfig *inputs **kwargs )

引數

config (SegformerConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

SegFormer 模型，頂部帶有一個影像分類頭（在最終隱藏狀態之上加一個線性層），例如用於 ImageNet。

此模型繼承自 TFPreTrainedModel。請查閱超類文件，瞭解庫為所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭等）。

此模型也是一個 keras.Model 的子類。可以像常規 TF 2.0 Keras 模型一樣使用它，並參考 TF 2.0 文件瞭解所有與常規用法和行為相關的事項。

呼叫

< 來源 >

( pixel_values: tf.Tensor | None = None labels: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None ) → transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)

引數

pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]、dict[str, tf.Tensor] 或 dict[str, np.ndarray]，並且每個示例的形狀必須為 (batch_size, num_channels, height, width)) — 畫素值。可以使用 AutoImageProcessor 獲取畫素值。有關詳細資訊，請參閱 SegformerImageProcessor.call()。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。此引數只能在 eager 模式下使用，在 graph 模式下將使用配置中的值。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。此引數只能在 eager 模式下使用，在 graph 模式下將使用配置中的值。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在 eager 模式下使用，在 graph 模式下該值將始終設定為 True。
training (bool, 可選, 預設為 `False“) — 是否將模型用於訓練模式（某些模組如 dropout 模組在訓練和評估之間有不同的行為）。

transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或一個 tf.Tensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（SegformerConfig）和輸入，包含不同的元素。

loss (tf.Tensor，形狀為 (batch_size, )，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (tf.Tensor，形狀為 (batch_size, config.num_labels)) — 分類（或迴歸，如果 config.num_labels==1）分數（SoftMax 之前）。
hidden_states (tuple(tf.Tensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — tf.Tensor 的元組（一個用於嵌入層的輸出 + 一個用於每層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
attentions (tuple(tf.Tensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

TFSegformerForImageClassification 的 forward 方法覆蓋了 __call__ 特殊方法。

雖然前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoImageProcessor, TFSegformerForImageClassification
>>> import tensorflow as tf
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image"))
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("nvidia/mit-b0")
>>> model = TFSegformerForImageClassification.from_pretrained("nvidia/mit-b0")

>>> inputs = image_processor(image, return_tensors="tf")
>>> logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = int(tf.math.argmax(logits, axis=-1))
>>> print(model.config.id2label[predicted_label])
tabby, tabby cat

TFSegformerForSemanticSegmentation

class transformers.TFSegformerForSemanticSegmentation

< 來源 >

( config: SegformerConfig **kwargs )

引數

config (SegformerConfig) — 包含模型所有引數的模型配置類。使用配置檔案進行初始化不會載入與模型相關的權重，只會載入配置。請檢視 from_pretrained() 方法來載入模型權重。

SegFormer 模型轉換器，頂部帶有一個全 MLP 解碼頭，例如用於 ADE20k、CityScapes。此模型繼承自 TFPreTrainedModel。請查閱超類文件，瞭解庫為所有模型實現的通用方法（如下載或儲存、調整輸入嵌入大小、修剪頭等）。

此模型也是一個 keras.Model 的子類。可以像常規 TF 2.0 Keras 模型一樣使用它，並參考 TF 2.0 文件瞭解所有與常規用法和行為相關的事項。

呼叫

< 來源 >

( pixel_values: tf.Tensor labels: tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None ) → transformers.modeling_tf_outputs.TFSemanticSegmenterOutput 或 tuple(tf.Tensor)

引數

pixel_values (np.ndarray, tf.Tensor, list[tf.Tensor]、dict[str, tf.Tensor] 或 dict[str, np.ndarray]，並且每個示例的形狀必須為 (batch_size, num_channels, height, width)) — 畫素值。可以使用 AutoImageProcessor 獲取畫素值。有關詳細資訊，請參閱 SegformerImageProcessor.call()。
output_attentions (bool, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊，請參閱返回張量下的 attentions。此引數只能在 eager 模式下使用，在 graph 模式下將使用配置中的值。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊，請參閱返回張量下的 hidden_states。此引數只能在 eager 模式下使用，在 graph 模式下將使用配置中的值。
return_dict (bool, 可選) — 是否返回一個 ModelOutput 而不是一個普通的元組。此引數可以在 eager 模式下使用，在 graph 模式下該值將始終設定為 True。
training (bool, 可選, 預設為 `False“) — 是否將模型用於訓練模式（某些模組如 dropout 模組在訓練和評估之間有不同的行為）。
labels (tf.Tensor，形狀為 (batch_size, height, width)，可選) — 用於計算損失的真實語義分割圖。索引應在 [0, ..., config.num_labels - 1] 範圍內。如果 config.num_labels > 1，則會計算（逐畫素）分類損失（交叉熵）。

transformers.modeling_tf_outputs.TFSemanticSegmenterOutput 或 tuple(tf.Tensor)

一個 transformers.modeling_tf_outputs.TFSemanticSegmenterOutput 或一個 tf.Tensor 的元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），根據配置（SegformerConfig）和輸入，包含不同的元素。

loss (形狀為 (1,) 的 tf.Tensor，可選，當提供 labels 時返回) — 分類（如果 config.num_labels==1，則為迴歸）損失。
logits (形狀為 (batch_size, config.num_labels, logits_height, logits_width) 的 tf.Tensor) — 每個畫素的分類分數。

返回的 logits 不一定與作為輸入傳遞的 pixel_values 具有相同的大小。這是為了避免當用戶需要將 logits 調整到原始影像大小作為後處理時，進行兩次插值並損失一些質量。您應始終檢查 logits 的形狀並根據需要進行調整。
hidden_states (tuple(tf.Tensor), 可選, 當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — tf.Tensor 的元組（一個用於嵌入層的輸出，如果模型有嵌入層，+ 一個用於每層的輸出），形狀為 (batch_size, patch_size, hidden_size)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
attentions (tuple(tf.Tensor), 可選, 當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — tf.Tensor 的元組（每層一個），形狀為 (batch_size, num_heads, patch_size, sequence_length)。

注意力 softmax 後的注意力權重，用於計算自注意力頭中的加權平均值。

TFSegformerForSemanticSegmentation 的 forward 方法覆蓋了 __call__ 特殊方法。

雖然前向傳播的流程需要在此函式內定義，但之後應呼叫 Module 例項而不是此函式，因為前者會處理預處理和後處理步驟，而後者會靜默忽略它們。

示例

>>> from transformers import AutoImageProcessor, TFSegformerForSemanticSegmentation
>>> from PIL import Image
>>> import requests

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)

>>> image_processor = AutoImageProcessor.from_pretrained("nvidia/segformer-b0-finetuned-ade-512-512")
>>> model = TFSegformerForSemanticSegmentation.from_pretrained("nvidia/segformer-b0-finetuned-ade-512-512")

>>> inputs = image_processor(images=image, return_tensors="tf")
>>> outputs = model(**inputs, training=False)
>>> # logits are of shape (batch_size, num_labels, height/4, width/4)
>>> logits = outputs.logits
>>> list(logits.shape)
[1, 150, 128, 128]

< > 在 GitHub 上更新

Transformers

SegFormer

概述

使用技巧

資源

SegformerConfig

class transformers.SegformerConfig

SegformerFeatureExtractor

class transformers.SegformerFeatureExtractor

__call__

post_process_semantic_segmentation

SegformerImageProcessor

class transformers.SegformerImageProcessor

preprocess

post_process_semantic_segmentation

SegformerModel

class transformers.SegformerModel

forward

SegformerDecodeHead

class transformers.SegformerDecodeHead

forward

SegformerForImageClassification

class transformers.SegformerForImageClassification

forward

SegformerForSemanticSegmentation

class transformers.SegformerForSemanticSegmentation

forward

TFSegformerDecodeHead

class transformers.TFSegformerDecodeHead

呼叫

TFSegformerModel

class transformers.TFSegformerModel

呼叫

TFSegformerForImageClassification

class transformers.TFSegformerForImageClassification

呼叫

TFSegformerForSemanticSegmentation

class transformers.TFSegformerForSemanticSegmentation

呼叫

call