PoolFormer

概述

PoolFormer 模型由 Sea AI Labs 在 MetaFormer is Actually What You Need for Vision 中提出。這項工作的目標是證明 Transformer 模型的能力主要來源於其通用架構 MetaFormer，而不是設計複雜的 token 混合器以實現 SOTA 效能。

論文摘要如下：

Transformer 在計算機視覺任務中展現了巨大潛力。一個普遍的觀點是，它們基於注意力的 token 混合器模組對其能力貢獻最大。然而，最近的研究表明，Transformer 中基於注意力的模組可以被空間 MLP 取代，並且由此產生的模型仍然表現良好。基於這一觀察，我們假設 Transformer 的通用架構，而非特定的 token 混合器模組，對模型的效能更為關鍵。為了驗證這一點，我們特意將 Transformer 中的注意力模組替換為一個極其簡單的空間池化運算子，以進行最基本的 token 混合。令人驚訝的是，我們觀察到由此衍生的模型，命名為 PoolFormer，在多個計算機視覺任務中取得了具有競爭力的效能。例如，在 ImageNet-1K 上，PoolFormer 實現了 82.1% 的 top-1 準確率，在引數量減少 35%/52% 和 MACs 減少 48%/60% 的情況下，超越了經過精心調整的視覺 Transformer/MLP 類基線 DeiT-B/ResMLP-B24 分別 0.3%/1.1% 的準確率。PoolFormer 的有效性驗證了我們的假設，並促使我們提出“MetaFormer”的概念，這是一種從 Transformer 中抽象出來的通用架構，但沒有指定 token 混合器。基於廣泛的實驗，我們認為 MetaFormer 是近來 Transformer 和 MLP 類模型在視覺任務中取得優異結果的關鍵。這項工作呼籲未來更多的研究致力於改進 MetaFormer，而不是專注於 token 混合器模組。此外，我們提出的 PoolFormer 可以作為未來 MetaFormer 架構設計的起始基線。

下圖展示了 PoolFormer 的架構。摘自原文。

該模型由heytanay貢獻。原始程式碼可在此處找到。

使用技巧

PoolFormer 採用分層架構，其中注意力機制被簡單的平均池化層取代。模型的所有檢查點都可以在hub上找到。
可以使用 PoolFormerImageProcessor 來為模型準備影像。
與大多數模型一樣，PoolFormer 有不同的大小，具體細節見下表。

模型變體	深度	隱藏層大小	引數 (M)	ImageNet-1k Top 1
s12	[2, 2, 6, 2]	[64, 128, 320, 512]	12	77.2
s24	[4, 4, 12, 4]	[64, 128, 320, 512]	21	80.3
s36	[6, 6, 18, 6]	[64, 128, 320, 512]	31	81.4
m36	[6, 6, 18, 6]	[96, 192, 384, 768]	56	82.1
m48	[8, 8, 24, 8]	[96, 192, 384, 768]	73	82.5

資源

一個官方 Hugging Face 和社群（以🌎表示）資源列表，幫助您開始使用 PoolFormer。

影像分類

PoolFormerForImageClassification 受此示例指令碼和notebook支援。
另請參閱：影像分類任務指南

如果您有興趣在此處提交資源，請隨時開啟 Pull Request，我們將對其進行審查！該資源最好能展示一些新內容，而不是重複現有資源。

PoolFormerConfig

class transformers.PoolFormerConfig

< source 來源 >

( num_channels = 3 patch_size = 16 stride = 16 pool_size = 3 mlp_ratio = 4.0 depths = [2, 2, 6, 2] hidden_sizes = [64, 128, 320, 512] patch_sizes = [7, 3, 3, 3] strides = [4, 2, 2, 2] padding = [2, 1, 1, 1] num_encoder_blocks = 4 drop_path_rate = 0.0 hidden_act = 'gelu' use_layer_scale = True layer_scale_init_value = 1e-05 initializer_range = 0.02 **kwargs )

引數

num_channels (int, 可選, 預設為 3) — 輸入影像中的通道數。
patch_size (int, 可選, 預設為 16) — 輸入 patch 的大小。
stride (int, 可選, 預設為 16) — 輸入 patch 的步長。
pool_size (int, 可選, 預設為 3) — 池化視窗的大小。
mlp_ratio (float, 可選, 預設為 4.0) — MLP 輸出通道數與輸入通道數的比率。
depths (list, 可選, 預設為 [2, 2, 6, 2]) — 每個編碼器塊的深度。
hidden_sizes (list, 可選, 預設為 [64, 128, 320, 512]) — 每個編碼器塊的隱藏大小。
patch_sizes (list, 可選, 預設為 [7, 3, 3, 3]) — 每個編碼器塊的輸入 patch 大小。
strides (list, 可選, 預設為 [4, 2, 2, 2]) — 每個編碼器塊的輸入 patch 步長。
padding (list, 可選, 預設為 [2, 1, 1, 1]) — 每個編碼器塊的輸入 patch 填充。
num_encoder_blocks (int, 可選, 預設為 4) — 編碼器塊的數量。
drop_path_rate (float, 可選, 預設為 0.0) — Dropout 層的 dropout 率。
hidden_act (str, 可選, 預設為 "gelu") — 隱藏層的啟用函式。
use_layer_scale (bool, 可選, 預設為 True) — 是否使用層縮放。
layer_scale_init_value (float, 可選, 預設為 1e-05) — 層縮放的初始值。
initializer_range (float, 可選, 預設為 0.02) — 權重的初始化範圍。

這是用於儲存 PoolFormerModel 配置的配置類。它用於根據指定引數例項化 PoolFormer 模型，定義模型架構。使用預設值例項化配置將生成與 PoolFormer sail/poolformer_s12 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import PoolFormerConfig, PoolFormerModel

>>> # Initializing a PoolFormer sail/poolformer_s12 style configuration
>>> configuration = PoolFormerConfig()

>>> # Initializing a model (with random weights) from the sail/poolformer_s12 style configuration
>>> model = PoolFormerModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

PoolFormerFeatureExtractor

class transformers.PoolFormerFeatureExtractor

< source 來源 >

( *args **kwargs )

call

< source 來源 >

( images **kwargs )

預處理單張或批次影像。

PoolFormerImageProcessor

class transformers.PoolFormerImageProcessor

< source 來源 >

( do_resize: bool = True size: typing.Optional[dict[str, int]] = None crop_pct: int = 0.9 resample: Resampling = <Resampling.BICUBIC: 3> do_center_crop: bool = True crop_size: typing.Optional[dict[str, int]] = None rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_rescale: bool = True do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None **kwargs )

引數

do_resize (bool, 可選, 預設為 True) — 是否將影像的（高度，寬度）尺寸調整到指定的 size。可在 preprocess 方法中透過 do_resize 覆蓋。
size (dict[str, int] 可選, 預設為 {"shortest_edge" -- 224}): 調整大小後的影像尺寸。可在 preprocess 方法中透過 size 覆蓋。如果未設定 `crop_pct`：
- size 為 {"height": h, "width": w}：影像將調整大小為 (h, w)。
- size 為 {"shortest_edge": s}：影像的最短邊將調整大小為 s，同時保持寬高比。
如果設定了 `crop_pct`：
- size 為 {"height": h, "width": w}：影像將調整大小為 (int(floor(h/crop_pct)), int(floor(w/crop_pct)))
- size 為 {"height": c, "width": c}：影像的最短邊將調整大小為 int(floor(c/crop_pct)，同時保持寬高比。
- size 為 {"shortest_edge": c}：影像的最短邊將調整大小為 int(floor(c/crop_pct)，同時保持寬高比。
crop_pct (float, 可選, 預設為 0.9) — 從中心裁剪影像的百分比。可在 preprocess 方法中透過 crop_pct 覆蓋。
resample (PILImageResampling, 可選, 預設為 Resampling.BICUBIC) — 調整影像大小時使用的重取樣濾波器。可在 preprocess 方法中透過 resample 覆蓋。
do_center_crop (bool, 可選, 預設為 True) — 是否對影像進行中心裁剪。如果輸入大小沿任意邊小於 crop_size，影像將用 0 填充，然後進行中心裁剪。可在 preprocess 方法中透過 do_center_crop 覆蓋。
crop_size (dict[str, int], 可選, 預設為 {"height" -- 224, "width": 224}): 應用中心裁剪後圖像的大小。僅在 do_center_crop 設定為 True 時生效。可在 preprocess 方法中透過 crop_size 引數覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 如果調整影像大小，則使用的縮放因子。可在 preprocess 方法中透過 rescale_factor 引數覆蓋。
do_rescale (bool, 可選, 預設為 True) — 是否透過指定比例 rescale_factor 重新縮放影像。可在 preprocess 方法中透過 do_rescale 引數覆蓋。
do_normalize (bool, 可選, 預設為 True) — 控制是否對影像進行歸一化。可在 preprocess 方法中透過 do_normalize 引數覆蓋。
image_mean (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_MEAN) — 影像歸一化時使用的均值。這是一個浮點數或浮點數列表，其長度與影像中的通道數相同。可在 preprocess 方法中透過 image_mean 引數覆蓋。
image_std (float 或 list[float], 可選, 預設為 IMAGENET_STANDARD_STD) — 影像歸一化時使用的標準差。這是一個浮點數或浮點數列表，其長度與影像中的通道數相同。可在 preprocess 方法中透過 image_std 引數覆蓋。

構建 PoolFormer 影像處理器。

preprocess

< source 來源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None crop_pct: typing.Optional[int] = None resample: Resampling = None do_center_crop: typing.Optional[bool] = None crop_size: typing.Optional[dict[str, int]] = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Optional[float] = None do_normalize: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: ChannelDimension = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None )

引數

images (ImageInput) — 要預處理的影像。期望單個或批次影像，畫素值範圍為 0 到 255。如果傳入的影像畫素值在 0 到 1 之間，請設定 do_rescale=False。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 應用調整大小後圖像的尺寸。
crop_pct (float, 可選, 預設為 self.crop_pct) — 影像裁剪的百分比。僅當 do_resize 設定為 True 時有效。
resample (int, 可選, 預設為 self.resample) — 如果調整影像大小，要使用的重取樣過濾器。可以是列舉 PILImageResampling 之一。僅當 do_resize 設定為 True 時有效。
do_center_crop (bool, 可選, 預設為 self.do_center_crop) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], 可選, 預設為 self.crop_size) — 應用中心裁剪後圖像的尺寸。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否將影像值重新縮放至 [0 - 1] 之間。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 如果 do_rescale 設定為 True，則按此重新縮放影像的縮放因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 影像平均值。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 影像標準差。
return_tensors (str 或 TensorType, 可選) — 返回張量的型別。可以是以下之一：
- 未設定：返回 np.ndarray 列表。
- TensorType.TENSORFLOW 或 'tf'：返回 tf.Tensor 型別的批處理。
- TensorType.PYTORCH 或 'pt'：返回 torch.Tensor 型別的批處理。
- TensorType.NUMPY 或 'np'：返回 np.ndarray 型別的批處理。
- TensorType.JAX 或 'jax'：返回 jax.numpy.ndarray 型別的批處理。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- ChannelDimension.FIRST：影像為 (num_channels, height, width) 格式。
- ChannelDimension.LAST：影像為 (height, width, num_channels) 格式。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，則從輸入影像推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像為 (num_channels, height, width) 格式。
- "channels_last" 或 ChannelDimension.LAST：影像為 (height, width, num_channels) 格式。
- "none" 或 ChannelDimension.NONE：影像為 (height, width) 格式。

預處理一張或一批影像。

PoolFormerImageProcessorFast

class transformers.PoolFormerImageProcessorFast

< source >

( **kwargs: typing_extensions.Unpack[transformers.models.poolformer.image_processing_poolformer_fast.PoolFormerFastImageProcessorKwargs] )

構造一個快速 Poolformer 影像處理器。

preprocess

< source >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] **kwargs: typing_extensions.Unpack[transformers.models.poolformer.image_processing_poolformer_fast.PoolFormerFastImageProcessorKwargs] ) → <class 'transformers.image_processing_base.BatchFeature'>

引數

images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 要預處理的影像。期望單個或批次影像，畫素值範圍為 0 到 255。如果傳入的影像畫素值在 0 到 1 之間，請設定 do_rescale=False。
do_resize (bool, 可選) — 是否調整影像大小。
size (dict[str, int], 可選) — 描述模型最大輸入維度。
default_to_square (bool, 可選) — 如果尺寸為整數，調整大小時是否預設為正方形影像。
resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果調整影像大小，要使用的重取樣過濾器。可以是列舉 PILImageResampling 之一。僅當 do_resize 設定為 True 時有效。
do_center_crop (bool, 可選) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], 可選) — 應用 center_crop 後輸出影像的尺寸。
do_rescale (bool, 可選) — 是否重新縮放影像。
rescale_factor (Union[int, float, NoneType]) — 如果 do_rescale 設定為 True，則按此重新縮放影像的縮放因子。
do_normalize (bool, 可選) — 是否對影像進行歸一化。
image_mean (Union[float, list[float], NoneType]) — 用於歸一化的影像平均值。僅當 do_normalize 設定為 True 時有效。
image_std (Union[float, list[float], NoneType]) — 用於歸一化的影像標準差。僅當 do_normalize 設定為 True 時有效。
do_convert_rgb (bool, 可選) — 是否將影像轉換為 RGB。
return_tensors (Union[str, ~utils.generic.TensorType, NoneType]) — 如果設定為 `pt`，則返回堆疊的張量，否則返回張量列表。
data_format (~image_utils.ChannelDimension, 可選) — 僅支援 ChannelDimension.FIRST。為與慢速處理器相容而新增。
input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 輸入影像的通道維度格式。如果未設定，則從輸入影像推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像為 (num_channels, height, width) 格式。
- "channels_last" 或 ChannelDimension.LAST：影像為 (height, width, num_channels) 格式。
- "none" 或 ChannelDimension.NONE：影像為 (height, width) 格式。
device (torch.device, 可選) — 處理影像的裝置。如果未設定，則從輸入影像推斷裝置。
disable_grouping (bool, 可選) — 是否停用按大小對影像進行分組以單獨處理而不是批次處理。如果為 None，則如果影像在 CPU 上，將設定為 True，否則為 False。此選擇基於經驗觀察，詳情在此處：https://github.com/huggingface/transformers/pull/38157
crop_pct (float, 可選, 預設為 self.crop_pct) — 影像裁剪的百分比。僅當 do_resize 設定為 True 時有效。

<class 'transformers.image_processing_base.BatchFeature'>

data (dict) — 由 call 方法返回的列表/陣列/張量字典（“pixel_values”等）。
tensor_type (Union[None, str, TensorType], 可選) — 您可以在此處提供一個`tensor_type`，以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。

PoolFormerModel

class transformers.PoolFormerModel

< source >

( config )

引數

config (PoolFormerModel) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，僅載入配置。檢視 from_pretrained() 方法載入模型權重。

輸出原始隱藏狀態的裸 Poolformer 模型，頂部沒有任何特定頭部。

此模型繼承自 PreTrainedModel。檢視超類文件，瞭解庫為其所有模型實現的一般方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件中所有與一般用法和行為相關的事項。

forward

< source >

( pixel_values: typing.Optional[torch.FloatTensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithNoAttention 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。詳情請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量中的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。

transformers.modeling_outputs.BaseModelOutputWithNoAttention 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.BaseModelOutputWithNoAttention 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），包含根據配置 (PoolFormerConfig) 和輸入的不同元素。

last_hidden_state (torch.FloatTensor, 形狀為 (batch_size, num_channels, height, width)) — 模型最後一層輸出的隱藏狀態序列。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則為嵌入輸出，+ 每個層的輸出）形狀為 (batch_size, num_channels, height, width)。

模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。

PoolFormerModel 的 forward 方法，覆蓋了 __call__ 特殊方法。

儘管 forward pass 的配方需要在此函式中定義，但之後應該呼叫 Module 例項而不是此函式，因為前者負責執行預處理和後處理步驟，而後者則靜默忽略它們。

示例

PoolFormerForImageClassification

class transformers.PoolFormerForImageClassification

< source >

( config )

引數

config (PoolFormerForImageClassification) — 包含模型所有引數的模型配置類。使用配置檔案初始化不會載入與模型相關的權重，僅載入配置。檢視 from_pretrained() 方法載入模型權重。

帶影像分類頭部的 PoolFormer 模型轉換器

此模型繼承自 PreTrainedModel。檢視超類文件，瞭解庫為其所有模型實現的一般方法（例如下載或儲存、調整輸入嵌入大小、修剪頭部等）。

此模型也是 PyTorch torch.nn.Module 子類。將其作為常規 PyTorch 模組使用，並參考 PyTorch 文件中所有與一般用法和行為相關的事項。

forward

< source >

( pixel_values: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)

引數

pixel_values (torch.FloatTensor，形狀為 (batch_size, num_channels, image_size, image_size)，可選) — 對應於輸入影像的張量。畫素值可以使用 {image_processor_class} 獲取。詳情請參閱 {image_processor_class}.__call__（{processor_class} 使用 {image_processor_class} 處理影像）。
labels (torch.LongTensor，形狀為 (batch_size,)，可選) — 用於計算影像分類/迴歸損失的標籤。索引應在 [0, ..., config.num_labels - 1] 之間。如果 config.num_labels == 1，則計算迴歸損失（均方損失）；如果 config.num_labels > 1，則計算分類損失（交叉熵）。
output_hidden_states (bool, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量中的 hidden_states。
return_dict (bool, 可選) — 是否返回 ModelOutput 而不是普通元組。

transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或 tuple(torch.FloatTensor)

一個 transformers.modeling_outputs.ImageClassifierOutputWithNoAttention 或一個 torch.FloatTensor 元組（如果傳遞了 return_dict=False 或當 config.return_dict=False 時），包含根據配置 (PoolFormerConfig) 和輸入的不同元素。

loss (形狀為 (1,) 的 torch.FloatTensor，可選，當提供 labels 時返回) — 分類損失（如果 config.num_labels==1，則為迴歸損失）。
logits (形狀為 (batch_size, config.num_labels) 的 torch.FloatTensor) — 分類（如果 config.num_labels==1，則為迴歸）分數（SoftMax 之前）。
hidden_states (tuple(torch.FloatTensor), 可選, 當傳遞 output_hidden_states=True 或當 config.output_hidden_states=True 時返回) — torch.FloatTensor 元組（如果模型有嵌入層，則為嵌入輸出，+ 每個階段的輸出）形狀為 (batch_size, num_channels, height, width)。模型在每個階段輸出的隱藏狀態（也稱為特徵圖）。

PoolFormerForImageClassification 的 forward 方法，覆蓋了 __call__ 特殊方法。

示例

>>> from transformers import AutoImageProcessor, PoolFormerForImageClassification
>>> import torch
>>> from datasets import load_dataset

>>> dataset = load_dataset("huggingface/cats-image")
>>> image = dataset["test"]["image"][0]

>>> image_processor = AutoImageProcessor.from_pretrained("sail/poolformer_s12")
>>> model = PoolFormerForImageClassification.from_pretrained("sail/poolformer_s12")

>>> inputs = image_processor(image, return_tensors="pt")

>>> with torch.no_grad():
...     logits = model(**inputs).logits

>>> # model predicts one of the 1000 ImageNet classes
>>> predicted_label = logits.argmax(-1).item()
>>> print(model.config.id2label[predicted_label])
...

< > 在 GitHub 上更新

Transformers

PoolFormer

概述

使用技巧

資源

PoolFormerConfig

class transformers.PoolFormerConfig

PoolFormerFeatureExtractor

class transformers.PoolFormerFeatureExtractor

__call__

PoolFormerImageProcessor

class transformers.PoolFormerImageProcessor

preprocess

PoolFormerImageProcessorFast

class transformers.PoolFormerImageProcessorFast

preprocess

PoolFormerModel

class transformers.PoolFormerModel

forward

PoolFormerForImageClassification

class transformers.PoolFormerForImageClassification

forward

call