Conditional DETR

概述

Conditional DETR 模型由 Depu Meng、Xiaokang Chen、Zejia Fan、Gang Zeng、Houqiang Li、Yuhui Yuan、Lei Sun、Jingdong Wang 在《Conditional DETR for Fast Training Convergence》中提出。Conditional DETR 提出了一種條件交叉注意力機制，用於加速 DETR 訓練。Conditional DETR 比 DETR 快 6.7 倍到 10 倍。

論文摘要如下：

最近開發的 DETR 方法將 transformer 編碼器和解碼器架構應用於目標檢測，並取得了可喜的效能。在本文中，我們處理了關鍵問題，即訓練收斂緩慢，並提出了一種用於快速 DETR 訓練的條件交叉注意力機制。我們的方法之所以產生，是因為 DETR 中的交叉注意力高度依賴內容嵌入來定位四個極值並預測框，這增加了對高質量內容嵌入的需求，從而增加了訓練難度。我們的方法名為 Conditional DETR，它從解碼器嵌入中學習條件空間查詢，用於解碼器多頭交叉注意力。這樣做的好處是，透過條件空間查詢，每個交叉注意力頭都能夠關注一個包含不同區域的波段，例如一個目標極值或目標框內的區域。這縮小了用於目標分類和框迴歸的獨特區域的定位空間範圍，從而減輕了對內容嵌入的依賴，並簡化了訓練。實驗結果表明，Conditional DETR 對於 R50 和 R101 主幹網路收斂速度提高了 6.7 倍，對於更強的主幹網路 DC5-R50 和 DC5-R101 收斂速度提高了 10 倍。程式碼可在https://github.com/Atten4Vis/ConditionalDETR獲取。

與原始 DETR 相比，Conditional DETR 表現出更快的收斂速度。摘自原始論文。

此模型由DepuMeng貢獻。原始程式碼可在此處找到。

資源

使用 Trainer 或 Accelerate 微調 ConditionalDetrForObjectDetection 的指令碼可在此處找到。
另請參閱：目標檢測任務指南。

ConditionalDetrConfig

class transformers.ConditionalDetrConfig

< 源 >

( use_timm_backbone = True backbone_config = None num_channels = 3 num_queries = 300 encoder_layers = 6 encoder_ffn_dim = 2048 encoder_attention_heads = 8 decoder_layers = 6 decoder_ffn_dim = 2048 decoder_attention_heads = 8 encoder_layerdrop = 0.0 decoder_layerdrop = 0.0 is_encoder_decoder = True activation_function = 'relu' d_model = 256 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 init_std = 0.02 init_xavier_std = 1.0 auxiliary_loss = False position_embedding_type = 'sine' backbone = 'resnet50' use_pretrained_backbone = True backbone_kwargs = None dilation = False class_cost = 2 bbox_cost = 5 giou_cost = 2 mask_loss_coefficient = 1 dice_loss_coefficient = 1 cls_loss_coefficient = 2 bbox_loss_coefficient = 5 giou_loss_coefficient = 2 focal_alpha = 0.25 **kwargs )

引數

use_timm_backbone (bool, 可選, 預設為 True) — 是否使用 timm 庫作為骨幹網路。如果設定為 False，將使用 AutoBackbone API。
backbone_config (PretrainedConfig 或 dict, 可選) — 骨幹模型的配置。僅在 use_timm_backbone 設定為 False 時使用，預設為 ResNetConfig()。
num_channels (int, 可選, 預設為 3) — 輸入通道數。
num_queries (int, 可選, 預設為 100) — 物件查詢的數量，即檢測槽的數量。這是 ConditionalDetrModel 在單張影像中可以檢測到的最大物件數量。對於 COCO，我們建議使用 100 個查詢。
d_model (int, 可選, 預設為 256) — 此引數是一個通用維度引數，用於定義編碼器層和解碼器層中的投影引數等元件的維度。
encoder_layers (int, 可選, 預設為 6) — 編碼器層數。
decoder_layers (int, 可選, 預設為 6) — 解碼器層數。
encoder_attention_heads (int, 可選, 預設為 8) — Transformer 編碼器中每個注意力層的注意力頭數量。
decoder_attention_heads (int, 可選, 預設為 8) — Transformer 解碼器中每個注意力層的注意力頭數量。
decoder_ffn_dim (int, 可選, 預設為 2048) — 解碼器中“中間”（通常稱為前饋）層的維度。
encoder_ffn_dim (int, 可選, 預設為 2048) — 解碼器中“中間”（通常稱為前饋）層的維度。
activation_function (str 或 function, 可選, 預設為 "relu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu", "relu", "silu" 和 "gelu_new"。
dropout (float, 可選, 預設為 0.1) — 嵌入層、編碼器和池化器中所有全連線層的 dropout 機率。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
activation_dropout (float, 可選, 預設為 0.0) — 全連線層內部啟用的 dropout 比率。
init_std (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態初始化器的標準差。
init_xavier_std (float, 可選, 預設為 1) — HM Attention 模組中用於 Xavier 初始化增益的比例因子。
encoder_layerdrop (float, 可選, 預設為 0.0) — 編碼器的 LayerDrop 機率。更多詳細資訊請參見 [LayerDrop 論文](參見 https://huggingface.co/papers/1909.11556)。
decoder_layerdrop (float, 可選, 預設為 0.0) — 解碼器的 LayerDrop 機率。更多詳細資訊請參見 [LayerDrop 論文](參見 https://huggingface.co/papers/1909.11556)。
auxiliary_loss (bool, 可選, 預設為 False) — 是否使用輔助解碼損失（每個解碼器層的損失）。
position_embedding_type (str, 可選, 預設為 "sine") — 在影像特徵之上使用的位置嵌入型別。可選擇 "sine" 或 "learned"。
backbone (str, 可選, 預設為 "resnet50") — 當 backbone_config 為 None 時使用的骨幹網路名稱。如果 use_pretrained_backbone 為 True，這將從 timm 或 transformers 庫載入相應的預訓練權重。如果 use_pretrained_backbone 為 False，這將載入骨幹網路的配置，並使用該配置初始化具有隨機權重的骨幹網路。
use_pretrained_backbone (bool, 可選, 預設為 True) — 是否使用骨幹網路的預訓練權重。
backbone_kwargs (dict, 可選) — 從檢查點載入時傳遞給 AutoBackbone 的關鍵字引數，例如 {'out_indices': (0, 1, 2, 3)}。如果設定了 backbone_config，則無法指定此引數。
dilation (bool, 可選, 預設為 False) — 是否在最後一個卷積塊 (DC5) 中用空洞卷積替換步長。僅在 use_timm_backbone = True 時支援。
class_cost (float, 可選, 預設為 1) — 匈牙利匹配成本中分類誤差的相對權重。
bbox_cost (float, 可選, 預設為 5) — 匈牙利匹配成本中邊界框座標 L1 誤差的相對權重。
giou_cost (float, 可選, 預設為 2) — 匈牙利匹配成本中邊界框的廣義 IoU 損失的相對權重。
mask_loss_coefficient (float, 可選, 預設為 1) — 全景分割損失中 Focal 損失的相對權重。
dice_loss_coefficient (float, 可選, 預設為 1) — 全景分割損失中 DICE/F-1 損失的相對權重。
bbox_loss_coefficient (float, 可選, 預設為 5) — 物件檢測損失中 L1 邊界框損失的相對權重。
giou_loss_coefficient (float, 可選, 預設為 2) — 物件檢測損失中廣義 IoU 損失的相對權重。
eos_coefficient (float, 可選, 預設為 0.1) — 物件檢測損失中“無物件”類別的相對分類權重。
focal_alpha (float, 可選, 預設為 0.25) — Focal 損失中的 Alpha 引數。

這是用於儲存 ConditionalDetrModel 配置的配置類。它用於根據指定引數例項化 Conditional DETR 模型，定義模型架構。使用預設值例項化配置將產生與 Conditional DETR microsoft/conditional-detr-resnet-50 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import ConditionalDetrConfig, ConditionalDetrModel

>>> # Initializing a Conditional DETR microsoft/conditional-detr-resnet-50 style configuration
>>> configuration = ConditionalDetrConfig()

>>> # Initializing a model (with random weights) from the microsoft/conditional-detr-resnet-50 style configuration
>>> model = ConditionalDetrModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

ConditionalDetrImageProcessor

class transformers.ConditionalDetrImageProcessor

< 源 >

( format: typing.Union[str, transformers.image_utils.AnnotationFormat] = <AnnotationFormat.COCO_DETECTION: 'coco_detection'> do_resize: bool = True size: typing.Optional[dict[str, int]] = None resample: Resampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_annotations: typing.Optional[bool] = None do_pad: bool = True pad_size: typing.Optional[dict[str, int]] = None **kwargs )

引數

format (str, 可選, 預設為 "coco_detection") — 註釋的資料格式。可選擇“coco_detection”或“coco_panoptic”。
do_resize (bool, 可選, 預設為 True) — 控制是否將影像的（高度，寬度）尺寸調整為指定的 size。可以透過 preprocess 方法中的 do_resize 引數覆蓋。
size (dict[str, int] 可選, 預設為 {"shortest_edge" -- 800, "longest_edge": 1333})：調整大小後圖像的 (height, width) 尺寸。可以透過 preprocess 方法中的 size 引數覆蓋。可用選項包括：
- {"height": int, "width": int}：影像將精確調整為 (height, width) 大小。不保持縱橫比。
- {"shortest_edge": int, "longest_edge": int}：影像將調整為最大尺寸，保持縱橫比，並使最短邊小於或等於 shortest_edge，最長邊小於或等於 longest_edge。
- {"max_height": int, "max_width": int}：影像將調整為最大尺寸，保持縱橫比，並使高度小於或等於 max_height，寬度小於或等於 max_width。
resample (PILImageResampling, 可選, 預設為 PILImageResampling.BILINEAR) — 如果調整影像大小，要使用的重取樣過濾器。
do_rescale (bool, 可選, 預設為 True) — 控制是否透過指定的 rescale_factor 重新縮放影像。可以透過 preprocess 方法中的 do_rescale 引數覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 如果重新縮放影像，要使用的縮放因子。可以透過 preprocess 方法中的 rescale_factor 引數覆蓋。
do_normalize — 控制是否對影像進行歸一化。可以透過 preprocess 方法中的 do_normalize 引數覆蓋。
image_mean (float 或 list[float], 可選, 預設為 IMAGENET_DEFAULT_MEAN) — 影像歸一化時使用的平均值。可以是單個值或值列表，每個通道一個。可以透過 preprocess 方法中的 image_mean 引數覆蓋。
image_std (float 或 list[float], 可選, 預設為 IMAGENET_DEFAULT_STD) — 影像歸一化時使用的標準差值。可以是單個值或值列表，每個通道一個。可以透過 preprocess 方法中的 image_std 引數覆蓋。
do_convert_annotations (bool, 可選, 預設為 True) — 控制是否將註釋轉換為 DETR 模型所需的格式。將邊界框轉換為 (center_x, center_y, width, height) 格式，範圍為 [0, 1]。可以透過 preprocess 方法中的 do_convert_annotations 引數覆蓋。
do_pad (bool, 可選, 預設為 True) — 控制是否填充影像。可以透過 preprocess 方法中的 do_pad 引數覆蓋。如果為 True，將用零填充影像的底部和右側。如果提供了 pad_size，影像將填充到指定尺寸。否則，影像將填充到批處理的最大高度和寬度。
pad_size (dict[str, int], 可選) — 影像要填充到的尺寸 {"height": int, "width" int}。必須大於為預處理提供的任何影像尺寸。如果未提供 pad_size，影像將填充到批處理中的最大高度和寬度。

構造一個條件 Detr 影像處理器。

preprocess

< 源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] annotations: typing.Union[dict[str, typing.Union[int, str, list[dict]]], list[dict[str, typing.Union[int, str, list[dict]]]], NoneType] = None return_segmentation_masks: typing.Optional[bool] = None masks_path: typing.Union[str, pathlib.Path, NoneType] = None do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None resample = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Union[int, float, NoneType] = None do_normalize: typing.Optional[bool] = None do_convert_annotations: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: typing.Optional[bool] = None format: typing.Union[str, transformers.image_utils.AnnotationFormat, NoneType] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: typing.Union[str, transformers.image_utils.ChannelDimension] = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None pad_size: typing.Optional[dict[str, int]] = None **kwargs )

引數

images (ImageInput) — 要預處理的影像或影像批次。期望單個或批次的影像，畫素值範圍為 0 到 255。如果傳入畫素值在 0 到 1 之間的影像，請設定 do_rescale=False。
annotations (AnnotationType 或 list[AnnotationType], 可選) — 與影像或影像批次關聯的註釋列表。如果註釋用於物件檢測，則註釋應為具有以下鍵的字典：
- “image_id” (int)：影像 ID。
- “annotations” (list[Dict])：影像的註釋列表。每個註釋都應是一個字典。影像可以沒有註釋，在這種情況下，列表應為空。如果註釋用於分割，則註釋應為具有以下鍵的字典：
- “image_id” (int)：影像 ID。
- “segments_info” (list[Dict])：影像的片段列表。每個片段都應是一個字典。影像可以沒有片段，在這種情況下，列表應為空。
- “file_name” (str)：影像的檔名。
return_segmentation_masks (bool, 可選, 預設為 self.return_segmentation_masks) — 是否返回分割掩碼。
masks_path (str 或 pathlib.Path, 可選) — 包含分割掩碼的目錄路徑。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 調整大小後圖像的 (height, width) 尺寸。可用選項包括：
- {"height": int, "width": int}：影像將精確調整為 (height, width) 大小。不保持縱橫比。
- {"shortest_edge": int, "longest_edge": int}：影像將調整為最大尺寸，保持縱橫比，並使最短邊小於或等於 shortest_edge，最長邊小於或等於 longest_edge。
- {"max_height": int, "max_width": int}：影像將調整為最大尺寸，保持縱橫比，並使高度小於或等於 max_height，寬度小於或等於 max_width。
resample (PILImageResampling, 可選, 預設為 self.resample) — 調整影像大小時要使用的重取樣過濾器。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否重新縮放影像。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 重新縮放影像時要使用的縮放因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
do_convert_annotations (bool, 可選, 預設為 self.do_convert_annotations) — 是否將註釋轉換為模型所需的格式。將邊界框從 (top_left_x, top_left_y, width, height) 格式轉換為 (center_x, center_y, width, height) 並使用相對座標。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 影像歸一化時使用的平均值。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 影像歸一化時使用的標準差。
do_pad (bool, 可選, 預設為 self.do_pad) — 是否填充影像。如果為 True，將用零填充影像的底部和右側。如果提供了 pad_size，影像將填充到指定尺寸。否則，影像將填充到批處理的最大高度和寬度。
format (str 或 AnnotationFormat, 可選, 預設為 self.format) — 註釋的格式。
return_tensors (str 或 TensorType, 可選, 預設為 self.return_tensors) — 要返回的張量型別。如果為 None，將返回影像列表。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- 未設定：使用輸入影像的通道維度格式。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，將從輸入影像推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。
pad_size (dict[str, int], 可選) — 影像要填充到的尺寸 {"height": int, "width" int}。必須大於為預處理提供的任何影像尺寸。如果未提供 pad_size，影像將填充到批處理中的最大高度和寬度。

預處理影像或影像批次，以便模型可以使用。

ConditionalDetrImageProcessorFast

class transformers.ConditionalDetrImageProcessorFast

< 源 >

( **kwargs: typing_extensions.Unpack[transformers.models.conditional_detr.image_processing_conditional_detr_fast.ConditionalDetrFastImageProcessorKwargs] )

構造一個快速條件 Detr 影像處理器。

preprocess

< 源 >

引數

images (Union[PIL.Image.Image, numpy.ndarray, torch.Tensor, list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']]) — 要預處理的影像。期望單個或批次的影像，畫素值範圍為 0 到 255。如果傳入畫素值在 0 到 1 之間的影像，請設定 do_rescale=False。
annotations (AnnotationType 或 list[AnnotationType], 可選) — 與影像或影像批次關聯的註釋列表。如果註釋用於物件檢測，則註釋應為具有以下鍵的字典：
- “image_id” (int)：影像 ID。
- “annotations” (list[Dict])：影像的註釋列表。每個註釋都應是一個字典。影像可以沒有註釋，在這種情況下，列表應為空。如果註釋用於分割，則註釋應為具有以下鍵的字典：
- “image_id” (int)：影像 ID。
- “segments_info” (list[Dict])：影像的片段列表。每個片段都應是一個字典。影像可以沒有片段，在這種情況下，列表應為空。
- “file_name” (str)：影像的檔名。
masks_path (str 或 pathlib.Path, 可選) — 包含分割掩碼的目錄路徑。
do_resize (bool, 可選) — 是否調整影像大小。
size (dict[str, int], 可選) — 描述模型最大輸入尺寸。
default_to_square (bool, 可選) — 調整大小時是否預設將影像設為正方形，如果 size 是一個整數。
resample (Union[PILImageResampling, F.InterpolationMode, NoneType]) — 如果調整影像大小，要使用的重取樣過濾器。可以是列舉 PILImageResampling 之一。僅在 do_resize 設定為 True 時有效。
do_center_crop (bool, 可選) — 是否對影像進行中心裁剪。
crop_size (dict[str, int], 可選) — 應用 center_crop 後輸出影像的尺寸。
do_rescale (bool, 可選) — 是否重新縮放影像。
rescale_factor (Union[int, float, NoneType]) — 如果 do_rescale 設定為 True，用於重新縮放影像的縮放因子。
do_normalize (bool, 可選) — 是否對影像進行歸一化。
image_mean (Union[float, list[float], NoneType]) — 用於歸一化的影像平均值。僅在 do_normalize 設定為 True 時有效。
image_std (Union[float, list[float], NoneType]) — 用於歸一化的影像標準差。僅在 do_normalize 設定為 True 時有效。
do_convert_rgb (bool, 可選) — 是否將影像轉換為 RGB。
return_tensors (Union[str, ~utils.generic.TensorType, NoneType]) — 如果設定為 `pt`，則返回堆疊張量，否則返回張量列表。
data_format (~image_utils.ChannelDimension, 可選) — 輸出影像的通道維度格式。僅支援 ChannelDimension.FIRST。為相容慢速處理器而新增。
input_data_format (Union[str, ~image_utils.ChannelDimension, NoneType]) — 輸入影像的通道維度格式。如果未設定，將從輸入影像推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像格式為 (num_channels, height, width)。
- "channels_last" 或 ChannelDimension.LAST：影像格式為 (height, width, num_channels)。
- "none" 或 ChannelDimension.NONE：影像格式為 (height, width)。
device (torch.device, optional) — 用於處理影像的裝置。如果未設定，則從輸入影像推斷裝置。
disable_grouping (bool, optional) — 是否停用按大小對影像進行分組以單獨而不是分批處理它們。如果為 None，則如果影像位於 CPU 上，則設定為 True，否則設定為 False。此選擇基於經驗觀察，詳情請參閱：https://github.com/huggingface/transformers/pull/38157
format (str, optional, 預設為 AnnotationFormat.COCO_DETECTION) — 註釋的資料格式。“coco_detection”或“coco_panoptic”之一。
do_convert_annotations (bool, optional, 預設為 True) — 控制是否將註釋轉換為 CONDITIONAL_DETR 模型期望的格式。將邊界框轉換為 (center_x, center_y, width, height) 格式並在 [0, 1] 範圍內。可以透過 preprocess 方法中的 do_convert_annotations 引數覆蓋。
do_pad (bool, optional, 預設為 True) — 控制是否填充影像。可以透過 preprocess 方法中的 do_pad 引數覆蓋。如果為 True，將用零填充影像的底部和右側。如果提供了 pad_size，影像將填充到指定的尺寸。否則，影像將填充到批次的最大高度和寬度。
pad_size (dict[str, int], optional) — 影像填充到的尺寸 {"height": int, "width" int}。必須大於為預處理提供的任何影像尺寸。如果未提供 pad_size，影像將填充到批次中的最大高度和寬度。
return_segmentation_masks (bool, optional, 預設為 False) — 是否返回分割掩碼。

<class 'transformers.image_processing_base.BatchFeature'>

data (dict) — 由 call 方法返回的列表/陣列/張量字典（“pixel_values”等）。
tensor_type (Union[None, str, TensorType], 可選) — 您可以在此處提供一個`tensor_type`，以便在初始化時將整數列表轉換為PyTorch/TensorFlow/Numpy張量。

Transformers

Conditional DETR

概述

資源

ConditionalDetrConfig

class transformers.ConditionalDetrConfig

ConditionalDetrImageProcessor

class transformers.ConditionalDetrImageProcessor

preprocess

ConditionalDetrImageProcessorFast

class transformers.ConditionalDetrImageProcessorFast

preprocess

post_process_object_detection

post_process_instance_segmentation

post_process_semantic_segmentation

post_process_panoptic_segmentation

ConditionalDetrFeatureExtractor

class transformers.ConditionalDetrFeatureExtractor

__call__

post_process_object_detection

post_process_instance_segmentation

post_process_semantic_segmentation

post_process_panoptic_segmentation

ConditionalDetrModel

class transformers.ConditionalDetrModel

forward

ConditionalDetrForObjectDetection

class transformers.ConditionalDetrForObjectDetection

forward

ConditionalDetrForSegmentation

class transformers.ConditionalDetrForSegmentation

forward

call