DETR

概述

DETR 模型由 Nicolas Carion、Francisco Massa、Gabriel Synnaeve、Nicolas Usunier、Alexander Kirillov 和 Sergey Zagoruyko 在 End-to-End Object Detection with Transformers 中提出。DETR 由一個卷積骨幹網路和Transformer編碼器-解碼器組成，可以端到端地用於目標檢測。它極大地簡化了像 Faster-R-CNN 和 Mask-R-CNN 等模型的複雜性，這些模型使用了區域提議、非極大值抑制過程和錨點生成等。此外，DETR 還可以透過簡單地在解碼器輸出之上新增一個掩碼頭來自然地擴充套件到執行全景分割。

論文摘要如下：

我們提出了一種將目標檢測視為直接集合預測問題的新方法。我們的方法簡化了檢測管道，有效地消除了對許多手工設計元件的需求，例如非極大值抑制過程或顯式編碼我們對任務先驗知識的錨點生成。新框架（稱為檢測 Transformer 或 DETR）的主要組成部分是一個基於集合的全域性損失，該損失透過二分匹配強制進行唯一預測，以及一個 Transformer 編碼器-解碼器架構。給定一組固定的少量學習到的物件查詢，DETR 能夠推理物件與全域性影像上下文之間的關係，直接並行輸出最終的預測集。與許多其他現代檢測器不同，新模型在概念上很簡單，不需要專門的庫。DETR 在具有挑戰性的 COCO 目標檢測資料集上，展示了與成熟且高度最佳化的 Faster RCNN 基線相當的準確性和執行時效能。此外，DETR 可以很容易地以統一的方式泛化以生成全景分割。我們表明它顯著優於有競爭力的基線。

此模型由 nielsr 貢獻。原始程式碼可以在這裡找到。

DETR 工作原理

以下是關於 DetrForObjectDetection 工作原理的 TLDR 解釋

首先，影像透過預訓練的卷積骨幹網路（在論文中，作者使用 ResNet-50/ResNet-101）傳送。假設我們還添加了一個批次維度。這意味著骨幹網路的輸入是形狀為 `(batch_size, 3, height, width)` 的張量，假設影像有 3 個顏色通道（RGB）。CNN 骨幹網路輸出一個新的低解析度特徵圖，通常形狀為 `(batch_size, 2048, height/32, width/32)`。然後，使用 `nn.Conv2D` 層將其投影以匹配 DETR Transformer 的隱藏維度，預設情況下為 `256`。因此，現在我們有一個形狀為 `(batch_size, 256, height/32, width/32)` 的張量。接下來，將特徵圖展平並轉置以獲得形狀為 `(batch_size, seq_len, d_model)` = `(batch_size, width/32*height/32, 256)` 的張量。因此，與 NLP 模型的一個區別是，序列長度實際上比通常更長，但 `d_model` 更小（在 NLP 中通常為 768 或更高）。

接下來，它透過編碼器，輸出相同形狀的 `encoder_hidden_states`（您可以將它們視為影像特徵）。接下來，所謂的**物件查詢**透過解碼器傳送。這是一個形狀為 `(batch_size, num_queries, d_model)` 的張量，其中 `num_queries` 通常設定為 100 並用零初始化。這些輸入嵌入是作者稱之為物件查詢的學習到的位置編碼，與編碼器類似，它們被新增到每個注意力層的輸入中。每個物件查詢都將在影像中查詢特定物件。解碼器透過多個自注意力層和編碼器-解碼器注意力層更新這些嵌入，以輸出相同形狀的 `decoder_hidden_states`：`(batch_size, num_queries, d_model)`。接下來，在頂部新增兩個頭用於物件檢測：一個線性層用於將每個物件查詢分類為其中一個物件或“無物件”，以及一個 MLP 用於預測每個查詢的邊界框。

該模型使用**二分匹配損失**進行訓練：因此我們實際做的是將 N = 100 個物件查詢中的每個查詢的預測類別 + 邊界框與地面真實註釋進行比較，並填充到相同的長度 N（因此，如果影像只包含 4 個物件，則 96 個註釋將只具有“無物件”作為類別和“無邊界框”作為邊界框）。使用匈牙利匹配演算法找到 N 個查詢中的每個查詢與 N 個註釋中的每個註釋之間的最佳一對一對映。接下來，使用標準交叉熵（用於類別）和 L1 與廣義 IoU 損失（用於邊界框）的線性組合來最佳化模型的引數。

DETR 可以自然地擴充套件以執行全景分割（它統一了語義分割和例項分割）。DetrForSegmentation 在 DetrForObjectDetection 的頂部添加了一個分割掩碼頭。掩碼頭可以聯合訓練，也可以分兩步訓練：首先訓練一個 DetrForObjectDetection 模型，以檢測“事物”（例項）和“背景”（如樹木、道路、天空等背景事物）的邊界框，然後凍結所有權重，僅訓練掩碼頭 25 個 epoch。實驗表明，這兩種方法給出了相似的結果。請注意，預測框是訓練能夠進行的必要條件，因為匈牙利匹配是使用框之間的距離計算的。

使用技巧

DETR 使用所謂的**物件查詢**來檢測影像中的物件。查詢的數量決定了單張影像中可以檢測到的最大物件數量，預設設定為 100（請參閱 DetrConfig 的引數 `num_queries`）。請注意，最好留有餘量（在 COCO 中，作者使用了 100，而 COCO 影像中物件的最大數量約為 70）。
DETR 的解碼器並行更新查詢嵌入。這與 GPT-2 等語言模型不同，後者使用自迴歸解碼而不是並行解碼。因此，不使用因果注意力掩碼。
DETR 在將影像特徵投影到查詢和鍵之前，會在每個自注意力層和交叉注意力層中新增位置嵌入。對於影像的位置嵌入，可以選擇固定正弦或學習到的絕對位置嵌入。預設情況下，DetrConfig 的引數 `position_embedding_type` 設定為 `"sine"`。
在訓練過程中，DETR 的作者發現使用解碼器中的輔助損失很有幫助，特別是為了幫助模型輸出每個類別的正確數量的物件。如果將 DetrConfig 的引數 `auxiliary_loss` 設定為 `True`，則在每個解碼器層之後新增預測前饋神經網路和匈牙利損失（FFN 共享引數）。
如果您想在多個節點的分散式環境中訓練模型，則應更新 *modeling_detr.py* 中 *DetrLoss* 類的 *num_boxes* 變數。在多節點訓練時，這應設定為所有節點上目標框的平均數量，如原始實現此處所示。
DetrForObjectDetection 和 DetrForSegmentation 可以使用 timm 庫中可用的任何卷積骨幹網路進行初始化。例如，透過將 DetrConfig 的 `backbone` 屬性設定為 `"tf_mobilenetv3_small_075"`，然後使用該配置初始化模型，即可使用 MobileNet 骨幹網路進行初始化。
DETR 會調整輸入影像的大小，使最短邊至少達到一定畫素量，同時最長邊最多為 1333 畫素。在訓練時，使用尺度增強，使最短邊隨機設定為至少 480 畫素，最多 800 畫素。在推理時，最短邊設定為 800。可以使用 DetrImageProcessor 為模型準備影像（以及 COCO 格式的可選註釋）。由於這種尺寸調整，批次中的影像可能具有不同的尺寸。DETR 透過將影像填充到批次中的最大尺寸，並建立畫素掩碼來指示哪些畫素是真實畫素/哪些是填充畫素來解決此問題。或者，也可以定義自定義的 `collate_fn` 以使用 `~transformers.DetrImageProcessor.pad_and_create_pixel_mask` 將影像批處理在一起。
影像尺寸將決定記憶體使用量，從而決定 `batch_size`。建議每 GPU 使用批處理大小為 2。更多資訊請參閱此 Github 執行緒。

有三種例項化 DETR 模型的方法（取決於您的偏好）

選項 1：例項化帶有整個模型預訓練權重的 DETR

>>> from transformers import DetrForObjectDetection

>>> model = DetrForObjectDetection.from_pretrained("facebook/detr-resnet-50")

選項 2：例項化帶有隨機初始化 Transformer 權重但骨幹網路預訓練權重的 DETR

>>> from transformers import DetrConfig, DetrForObjectDetection

>>> config = DetrConfig()
>>> model = DetrForObjectDetection(config)

選項 3：例項化帶有隨機初始化骨幹網路 + Transformer 權重的 DETR

>>> config = DetrConfig(use_pretrained_backbone=False)
>>> model = DetrForObjectDetection(config)

總結一下，請看下錶

任務	目標檢測	例項分割	全景分割
描述	預測影像中物件的邊界框和類別標籤	預測影像中物件（即例項）的掩碼	預測影像中物件（即例項）以及“stuff”（即背景事物，如樹木和道路）的掩碼
模型	DetrForObjectDetection	DetrForSegmentation	DetrForSegmentation
示例資料集	COCO 檢測	COCO 檢測，COCO 全景	COCO 全景
提供給 DetrImageProcessor 的註釋格式	{'image_id': `int`, 'annotations': `list[Dict]` } 每個 Dict 都是一個 COCO 物件註釋	{'image_id': `int`, 'annotations': `list[Dict]`} (COCO 檢測情況下) 或 {'file_name': `str`, 'image_id': `int`, 'segments_info': `list[Dict]`} (COCO 全景情況下)	{'file_name': `str`, 'image_id': `int`, 'segments_info': `list[Dict]`} 和 masks_path（包含掩碼 PNG 檔案的目錄路徑）
後處理（即將模型輸出轉換為 Pascal VOC 格式）	`post_process()`	`post_process_segmentation()`	`post_process_segmentation()`、`post_process_panoptic()`
評估器	`CocoEvaluator` with `iou_types="bbox"`	`CocoEvaluator` with `iou_types="bbox"` or `"segm"`	`CocoEvaluator` with `iou_tupes="bbox"` or `"segm"`, `PanopticEvaluator`

簡而言之，應首先將資料準備為 COCO 檢測或 COCO 全景格式，然後使用 DetrImageProcessor 建立 `pixel_values`、`pixel_mask` 和可選的 `labels`，然後可以使用這些資料訓練（或微調）模型。對於評估，應首先使用 DetrImageProcessor 的後處理方法之一轉換模型輸出。這些輸出可以提供給 `CocoEvaluator` 或 `PanopticEvaluator`，它們允許您計算平均精度 (mAP) 和全景質量 (PQ) 等指標。後者物件在原始儲存庫中實現。有關評估的更多資訊，請參閱示例筆記本。

資源

Hugging Face 官方和社群（以 🌎 標示）資源列表，助您快速開始使用 DETR。

物體檢測

所有演示在自定義資料集上微調 DetrForObjectDetection 和 DetrForSegmentation 的示例筆記本都可以在此處找到。
使用 Trainer 或 Accelerate 微調 DetrForObjectDetection 的指令碼可以在此處找到。
另請參閱：目標檢測任務指南。

如果您有興趣在此處提交資源，請隨時開啟 Pull Request，我們將對其進行審查！該資源最好能展示一些新內容，而不是重複現有資源。

DetrConfig

類 transformers.DetrConfig

< 來源 >

( use_timm_backbone = True backbone_config = None num_channels = 3 num_queries = 100 encoder_layers = 6 encoder_ffn_dim = 2048 encoder_attention_heads = 8 decoder_layers = 6 decoder_ffn_dim = 2048 decoder_attention_heads = 8 encoder_layerdrop = 0.0 decoder_layerdrop = 0.0 is_encoder_decoder = True activation_function = 'relu' d_model = 256 dropout = 0.1 attention_dropout = 0.0 activation_dropout = 0.0 init_std = 0.02 init_xavier_std = 1.0 auxiliary_loss = False position_embedding_type = 'sine' backbone = 'resnet50' use_pretrained_backbone = True backbone_kwargs = None dilation = False class_cost = 1 bbox_cost = 5 giou_cost = 2 mask_loss_coefficient = 1 dice_loss_coefficient = 1 bbox_loss_coefficient = 5 giou_loss_coefficient = 2 eos_coefficient = 0.1 **kwargs )

引數

use_timm_backbone (bool, 可選, 預設為 True) — 是否使用 `timm` 庫作為骨幹網路。如果設定為 `False`，將使用 AutoBackbone API。
backbone_config (PretrainedConfig 或 dict, 可選) — 骨幹模型的配置。僅在 `use_timm_backbone` 設定為 `False` 的情況下使用，此時它將預設為 `ResNetConfig()`。
num_channels (int, 可選, 預設為 3) — 輸入通道的數量。
num_queries (int, 可選, 預設為 100) — 物件查詢的數量，即檢測槽的數量。這是 DetrModel 在單個影像中可以檢測到的最大物件數量。對於 COCO，我們推薦 100 個查詢。
d_model (int, 可選, 預設為 256) — 此引數是通用維度引數，定義了編碼器層和解碼器層中的投影引數等元件的維度。
encoder_layers (int, 可選, 預設為 6) — 編碼器層的數量。
decoder_layers (int, 可選, 預設為 6) — 解碼器層的數量。
encoder_attention_heads (int, 可選, 預設為 8) — Transformer 編碼器中每個注意力層的注意力頭數量。
decoder_attention_heads (int, 可選, 預設為 8) — Transformer 解碼器中每個注意力層的注意力頭數量。
decoder_ffn_dim (int, 可選, 預設為 2048) — 解碼器中“中間”（通常稱為前饋）層的維度。
encoder_ffn_dim (int, 可選, 預設為 2048) — 解碼器中“中間”（通常稱為前饋）層的維度。
activation_function (str 或 function, 可選, 預設為 "relu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，則支援 `"gelu"`、`"relu"`、`"silu"` 和 `"gelu_new"`。
dropout (float, 可選, 預設為 0.1) — 嵌入、編碼器和池化器中所有全連線層的 dropout 機率。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
activation_dropout (float, 可選, 預設為 0.0) — 全連線層內部啟用的 dropout 比率。
init_std (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 `truncated_normal_initializer` 的標準差。
init_xavier_std (float, 可選, 預設為 1) — HM Attention 模組中 Xavier 初始化增益的縮放因子。
encoder_layerdrop (float, 可選, 預設為 0.0) — 編碼器的 LayerDrop 機率。更多詳情請參閱 [LayerDrop 論文](參見 https://huggingface.co/papers/1909.11556)。
decoder_layerdrop (float, 可選, 預設為 0.0) — 解碼器的 LayerDrop 機率。更多詳情請參閱 [LayerDrop 論文](參見 https://huggingface.co/papers/1909.11556)。
auxiliary_loss (bool, 可選, 預設為 False) — 是否使用輔助解碼損失（每個解碼器層的損失）。
position_embedding_type (str, 可選, 預設為 "sine") — 在影像特徵頂部使用的位置嵌入型別。可選項為 `"sine"` 或 `"learned"`。
backbone (str, 可選, 預設為 "resnet50") — 當 `backbone_config` 為 `None` 時使用的骨幹網路名稱。如果 `use_pretrained_backbone` 為 `True`，這將從 timm 或 transformers 庫載入相應的預訓練權重。如果 `use_pretrained_backbone` 為 `False`，這將載入骨幹網路的配置，並使用該配置以隨機權重初始化骨幹網路。
use_pretrained_backbone (bool, 可選, True) — 是否使用骨幹網路的預訓練權重。
backbone_kwargs (dict, 可選) — 載入檢查點時要傳遞給 AutoBackbone 的關鍵字引數，例如 `{'out_indices': (0, 1, 2, 3)}`。如果設定了 `backbone_config`，則不能指定此引數。
dilation (bool, 可選, 預設為 False) — 是否在最後一個卷積塊（DC5）中用空洞卷積代替步幅。僅在 `use_timm_backbone` = `True` 時支援。
class_cost (float, 可選, 預設為 1) — 匈牙利匹配成本中分類錯誤的相對權重。
bbox_cost (float, 可選, 預設為 5) — 匈牙利匹配成本中邊界框座標 L1 誤差的相對權重。
giou_cost (float, 可選, 預設為 2) — 匈牙利匹配成本中邊界框廣義 IoU 損失的相對權重。
mask_loss_coefficient (float, 可選, 預設為 1) — 全景分割損失中 Focal loss 的相對權重。
dice_loss_coefficient (float, 可選, 預設為 1) — 全景分割損失中 DICE/F-1 損失的相對權重。
bbox_loss_coefficient (float, 可選, 預設為 5) — 目標檢測損失中 L1 邊界框損失的相對權重。
giou_loss_coefficient (float, 可選, 預設為 2) — 目標檢測損失中廣義 IoU 損失的相對權重。
eos_coefficient (float, 可選, 預設為 0.1) — 目標檢測損失中“無目標”類別的相對分類權重。

這是配置類，用於儲存 DetrModel 的配置。它用於根據指定的引數例項化 DETR 模型，定義模型架構。使用預設值例項化配置將產生與 DETR facebook/detr-resnet-50 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import DetrConfig, DetrModel

>>> # Initializing a DETR facebook/detr-resnet-50 style configuration
>>> configuration = DetrConfig()

>>> # Initializing a model (with random weights) from the facebook/detr-resnet-50 style configuration
>>> model = DetrModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

from_backbone_config

< 源 >

( backbone_config: PretrainedConfig **kwargs ) → DetrConfig

引數

backbone_config (PretrainedConfig) — 主幹網路配置。

DetrConfig

一個配置物件的例項

從預訓練的主幹模型配置例項化 DetrConfig（或派生類）。

DetrImageProcessor

class transformers.DetrImageProcessor

< 源 >

( format: typing.Union[str, transformers.image_utils.AnnotationFormat] = <AnnotationFormat.COCO_DETECTION: 'coco_detection'> do_resize: bool = True size: typing.Optional[dict[str, int]] = None resample: Resampling = <Resampling.BILINEAR: 2> do_rescale: bool = True rescale_factor: typing.Union[int, float] = 0.00392156862745098 do_normalize: bool = True image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_convert_annotations: typing.Optional[bool] = None do_pad: bool = True pad_size: typing.Optional[dict[str, int]] = None **kwargs )

引數

format (str, 可選, 預設為 "coco_detection") — 註解的資料格式。可以是 “coco_detection” 或 “coco_panoptic” 之一。
do_resize (bool, 可選, 預設為 True) — 控制是否將影像的 (height, width) 尺寸調整為指定的 size。可以透過 preprocess 方法中的 do_resize 引數覆蓋。
size (dict[str, int] 可選, 預設為 {"shortest_edge" -- 800, "longest_edge": 1333})：調整大小後圖像 (height, width) 尺寸的大小。可以透過 preprocess 方法中的 size 引數覆蓋。可用選項包括：
- {"height": int, "width": int}：影像將被調整為精確大小 (height, width)。不保留寬高比。
- {"shortest_edge": int, "longest_edge": int}：影像將被調整為最大大小，同時保持寬高比，並保持最短邊小於或等於 shortest_edge，最長邊小於或等於 longest_edge。
- {"max_height": int, "max_width": int}：影像將被調整為最大大小，同時保持寬高比，並保持高度小於或等於 max_height，寬度小於或等於 max_width。
resample (PILImageResampling, 可選, 預設為 PILImageResampling.BILINEAR) — 如果調整影像大小，要使用的重取樣濾鏡。
do_rescale (bool, 可選, 預設為 True) — 控制是否按指定比例 rescale_factor 重新縮放影像。可以透過 preprocess 方法中的 do_rescale 引數覆蓋。
rescale_factor (int 或 float, 可選, 預設為 1/255) — 重新縮放影像時要使用的比例因子。可以透過 preprocess 方法中的 rescale_factor 引數覆蓋。
do_normalize (bool, 可選, 預設為 True) — 控制是否對影像進行歸一化。可以透過 preprocess 方法中的 do_normalize 引數覆蓋。
image_mean (float 或 list[float], 可選, 預設為 IMAGENET_DEFAULT_MEAN) — 歸一化影像時使用的平均值。可以是單個值或值列表，每個通道一個值。可以透過 preprocess 方法中的 image_mean 引數覆蓋。
image_std (float 或 list[float], 可選, 預設為 IMAGENET_DEFAULT_STD) — 歸一化影像時使用的標準差值。可以是單個值或值列表，每個通道一個值。可以透過 preprocess 方法中的 image_std 引數覆蓋。
do_convert_annotations (bool, 可選, 預設為 True) — 控制是否將註釋轉換為 DETR 模型期望的格式。將邊界框轉換為 (center_x, center_y, width, height) 格式並在 [0, 1] 範圍內。可以透過 preprocess 方法中的 do_convert_annotations 引數覆蓋。
do_pad (bool, 可選, 預設為 True) — 控制是否填充影像。可以透過 preprocess 方法中的 do_pad 引數覆蓋。如果為 True，將對影像的底部和右側用零進行填充。如果提供了 pad_size，影像將填充到指定尺寸。否則，影像將填充到批次的最大高度和寬度。
pad_size (dict[str, int], 可選) — 填充影像的尺寸 {"height": int, "width" int}。必須大於為預處理提供的任何影像尺寸。如果未提供 pad_size，影像將填充到批次中的最大高度和寬度。

構造一個 Detr 影像處理器。

preprocess

< 源 >

( images: typing.Union[ForwardRef('PIL.Image.Image'), numpy.ndarray, ForwardRef('torch.Tensor'), list['PIL.Image.Image'], list[numpy.ndarray], list['torch.Tensor']] annotations: typing.Union[dict[str, typing.Union[int, str, list[dict]]], list[dict[str, typing.Union[int, str, list[dict]]]], NoneType] = None return_segmentation_masks: typing.Optional[bool] = None masks_path: typing.Union[str, pathlib.Path, NoneType] = None do_resize: typing.Optional[bool] = None size: typing.Optional[dict[str, int]] = None resample = None do_rescale: typing.Optional[bool] = None rescale_factor: typing.Union[int, float, NoneType] = None do_normalize: typing.Optional[bool] = None do_convert_annotations: typing.Optional[bool] = None image_mean: typing.Union[float, list[float], NoneType] = None image_std: typing.Union[float, list[float], NoneType] = None do_pad: typing.Optional[bool] = None format: typing.Union[str, transformers.image_utils.AnnotationFormat, NoneType] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None data_format: typing.Union[str, transformers.image_utils.ChannelDimension] = <ChannelDimension.FIRST: 'channels_first'> input_data_format: typing.Union[str, transformers.image_utils.ChannelDimension, NoneType] = None pad_size: typing.Optional[dict[str, int]] = None **kwargs )

引數

images (ImageInput) — 要預處理的影像或影像批次。期望單個或批次影像的畫素值範圍為 0 到 255。如果傳入的影像畫素值在 0 到 1 之間，請設定 do_rescale=False。
annotations (AnnotationType 或 list[AnnotationType], 可選) — 與影像或影像批次相關的註釋列表。如果註釋用於目標檢測，則註釋應為具有以下鍵的字典：
- “image_id” (int)：影像 ID。
- “annotations” (list[Dict])：影像的註釋列表。每個註釋都應為字典。影像可以沒有註釋，在這種情況下，列表應為空。如果註釋用於分割，則註釋應為具有以下鍵的字典：
- “image_id” (int)：影像 ID。
- “segments_info” (list[Dict])：影像的分割列表。每個分割都應為字典。影像可以沒有分割，在這種情況下，列表應為空。
- “file_name” (str)：影像的檔名。
return_segmentation_masks (bool, 可選, 預設為 self.return_segmentation_masks) — 是否返回分割掩碼。
masks_path (str 或 pathlib.Path, 可選) — 包含分割掩碼的目錄路徑。
do_resize (bool, 可選, 預設為 self.do_resize) — 是否調整影像大小。
size (dict[str, int], 可選, 預設為 self.size) — 調整大小後圖像 (height, width) 尺寸的大小。可用選項包括：
- {"height": int, "width": int}：影像將被調整為精確大小 (height, width)。不保留寬高比。
- {"shortest_edge": int, "longest_edge": int}：影像將被調整為最大大小，同時保持寬高比，並保持最短邊小於或等於 shortest_edge，最長邊小於或等於 longest_edge。
- {"max_height": int, "max_width": int}：影像將被調整為最大大小，同時保持寬高比，並保持高度小於或等於 max_height，寬度小於或等於 max_width。
resample (PILImageResampling, 可選, 預設為 self.resample) — 調整影像大小時使用的重取樣濾鏡。
do_rescale (bool, 可選, 預設為 self.do_rescale) — 是否重新縮放影像。
rescale_factor (float, 可選, 預設為 self.rescale_factor) — 重新縮放影像時要使用的比例因子。
do_normalize (bool, 可選, 預設為 self.do_normalize) — 是否對影像進行歸一化。
do_convert_annotations (bool, 可選, 預設為 self.do_convert_annotations) — 是否將註釋轉換為模型期望的格式。將邊界框從 (top_left_x, top_left_y, width, height) 格式轉換為 (center_x, center_y, width, height) 並在相對座標中。
image_mean (float 或 list[float], 可選, 預設為 self.image_mean) — 歸一化影像時使用的平均值。
image_std (float 或 list[float], 可選, 預設為 self.image_std) — 歸一化影像時使用的標準差。
do_pad (bool, 可選, 預設為 self.do_pad) — 是否填充影像。如果為 True，將對影像的底部和右側用零進行填充。如果提供了 pad_size，影像將填充到指定尺寸。否則，影像將填充到批次的最大高度和寬度。
format (str 或 AnnotationFormat, 可選, 預設為 self.format) — 註釋的格式。
return_tensors (str 或 TensorType, 可選, 預設為 self.return_tensors) — 要返回的張量型別。如果為 None，將返回影像列表。
data_format (ChannelDimension 或 str, 可選, 預設為 ChannelDimension.FIRST) — 輸出影像的通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像為 (num_channels, height, width) 格式。
- "channels_last" 或 ChannelDimension.LAST：影像為 (height, width, num_channels) 格式。
- 未設定：使用輸入影像的通道維度格式。
input_data_format (ChannelDimension 或 str, 可選) — 輸入影像的通道維度格式。如果未設定，將從輸入影像推斷通道維度格式。可以是以下之一：
- "channels_first" 或 ChannelDimension.FIRST：影像為 (num_channels, height, width) 格式。
- "channels_last" 或 ChannelDimension.LAST：影像為 (height, width, num_channels) 格式。
- "none" 或 ChannelDimension.NONE：影像為 (height, width) 格式。
pad_size (dict[str, int], 可選) — 填充影像的尺寸 {"height": int, "width" int}。必須大於為預處理提供的任何影像尺寸。如果未提供 pad_size，影像將填充到批次中的最大高度和寬度。

預處理影像或影像批次，以便模型可以使用。

post_process_object_detection

< 源 >

( outputs threshold: float = 0.5 target_sizes: typing.Union[transformers.utils.generic.TensorType, list[tuple]] = None ) → list[Dict]

引數

outputs (DetrObjectDetectionOutput) — 模型的原始輸出。
threshold (float, 可選) — 保持目標檢測預測的分數閾值。
target_sizes (torch.Tensor 或 list[tuple[int, int]], 可選) — 形狀為 (batch_size, 2) 的張量或元組列表 (tuple[int, int])，包含批處理中每張影像的目標大小 (height, width)。如果未設定，則不會調整預測的大小。

list[Dict]

一個字典列表，每個字典包含模型預測的批處理中每張影像的分數、標籤和框。

將 DetrForObjectDetection 的原始輸出轉換為 (top_left_x, top_left_y, bottom_right_x, bottom_right_y) 格式的最終邊界框。僅支援 PyTorch。

Transformers

DETR

概述

DETR 工作原理

使用技巧

資源

DetrConfig

類 transformers.DetrConfig

from_backbone_config

DetrImageProcessor

class transformers.DetrImageProcessor

preprocess

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DetrImageProcessorFast

class transformers.DetrImageProcessorFast

preprocess

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DetrFeatureExtractor

class transformers.DetrFeatureExtractor

__call__

post_process_object_detection

post_process_semantic_segmentation

post_process_instance_segmentation

post_process_panoptic_segmentation

DETR 特定的輸出

class transformers.models.detr.modeling_detr.DetrModelOutput

class transformers.models.detr.modeling_detr.DetrObjectDetectionOutput

class transformers.models.detr.modeling_detr.DetrSegmentationOutput

DetrModel

class transformers.DetrModel

前向傳播

DetrForObjectDetection

class transformers.DetrForObjectDetection

前向傳播

DetrForSegmentation

class transformers.DetrForSegmentation

前向傳播

call