OWLv2

概述

OWLv2 由 Matthias Minderer、Alexey Gritsenko 和 Neil Houlsby 在論文《擴充套件開放詞彙目標檢測》（Scaling Open-Vocabulary Object Detection）中提出。OWLv2 使用自訓練方法擴充套件了 OWL-ViT，該方法利用現有檢測器在圖文對上生成偽框標註。這使得其在零樣本目標檢測方面比之前的 SOTA 模型取得了巨大進步。

論文摘要如下：

開放詞彙目標檢測極大地受益於預訓練的視覺語言模型，但仍然受限於可用的檢測訓練資料量。雖然可以透過使用網路圖文對作為弱監督來擴充套件檢測訓練資料，但這並未在與影像級預訓練相當的規模上進行。在這裡，我們透過自訓練來擴充套件檢測資料，該方法使用現有檢測器在圖文對上生成偽框標註。擴充套件自訓練的主要挑戰是標籤空間的選擇、偽標註的過濾和訓練效率。我們提出了 OWLv2 模型和 OWL-ST 自訓練配方，解決了這些挑戰。在相當的訓練規模（約 1000 萬個樣本）下，OWLv2 的效能已經超過了之前最先進的開放詞彙檢測器。然而，透過 OWL-ST，我們可以擴充套件到超過 10 億個樣本，從而帶來更大的提升：使用 L/14 架構，OWL-ST 將 LVIS 稀有類別的 AP 從 31.2% 提高到 44.6%（相對提升 43%），而模型並未見過這些類別的人工框標註。OWL-ST 為開放世界定位解鎖了網路規模的訓練，類似於在影像分類和語言建模中看到的情況。

OWLv2 概覽圖。引自原始論文。

該模型由 nielsr 貢獻。原始程式碼可在此處找到。

用法示例

OWLv2 和其前身 OWL-ViT 一樣，是一個零樣本文字條件的目標檢測模型。OWL-ViT 使用 CLIP 作為其多模態主幹，透過一個類 ViT 的 Transformer 獲取視覺特徵，透過一個因果語言模型獲取文字特徵。為了將 CLIP 用於檢測，OWL-ViT 移除了視覺模型的最終 token 池化層，並在每個 Transformer 輸出 token 上附加了一個輕量級的分類和框頭。透過將固定的分類層權重替換為從文字模型獲得的類名嵌入，實現了開放詞彙分類。作者首先從頭開始訓練 CLIP，然後將其與分類和框頭在標準檢測資料集上進行端到端的微調，使用二分匹配損失。每張影像可以使用一個或多個文字查詢來執行零樣本文字條件的目標檢測。

Owlv2ImageProcessor 可用於調整影像大小（或縮放）和歸一化，而 CLIPTokenizer 用於編碼文字。Owlv2Processor 將 Owlv2ImageProcessor 和 CLIPTokenizer 包裝成一個單一例項，以同時編碼文字和準備影像。以下示例展示瞭如何使用 Owlv2Processor 和 Owlv2ForObjectDetection 進行目標檢測。

>>> import requests
>>> from PIL import Image
>>> import torch

>>> from transformers import Owlv2Processor, Owlv2ForObjectDetection

>>> processor = Owlv2Processor.from_pretrained("google/owlv2-base-patch16-ensemble")
>>> model = Owlv2ForObjectDetection.from_pretrained("google/owlv2-base-patch16-ensemble")

>>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
>>> image = Image.open(requests.get(url, stream=True).raw)
>>> text_labels = [["a photo of a cat", "a photo of a dog"]]
>>> inputs = processor(text=text_labels, images=image, return_tensors="pt")
>>> outputs = model(**inputs)

>>> # Target image sizes (height, width) to rescale box predictions [batch_size, 2]
>>> target_sizes = torch.tensor([(image.height, image.width)])
>>> # Convert outputs (bounding boxes and class logits) to Pascal VOC format (xmin, ymin, xmax, ymax)
>>> results = processor.post_process_grounded_object_detection(
...     outputs=outputs, target_sizes=target_sizes, threshold=0.1, text_labels=text_labels
... )
>>> # Retrieve predictions for the first image for the corresponding text queries
>>> result = results[0]
>>> boxes, scores, text_labels = result["boxes"], result["scores"], result["text_labels"]
>>> for box, score, text_label in zip(boxes, scores, text_labels):
...     box = [round(i, 2) for i in box.tolist()]
...     print(f"Detected {text_label} with confidence {round(score.item(), 3)} at location {box}")
Detected a photo of a cat with confidence 0.614 at location [341.67, 23.39, 642.32, 371.35]
Detected a photo of a cat with confidence 0.665 at location [6.75, 51.96, 326.62, 473.13]

資源

一個關於使用 OWLv2 進行零樣本和單樣本（影像引導）目標檢測的演示筆記本可以在此處找到。
零樣本目標檢測任務指南

OWLv2 的架構與 OWL-ViT 相同，但目標檢測頭現在還包括一個物體性分類器，用於預測預測框包含物體（而不是背景）的（與查詢無關的）可能性。物體性得分可用於獨立於文字查詢對預測進行排序或過濾。OWLv2 的使用方法與 OWL-ViT 相同，但使用了新的、更新的影像處理器（Owlv2ImageProcessor）。

Owlv2Config

class transformers.Owlv2Config

< 原始碼 >

( text_config = None vision_config = None projection_dim = 512 logit_scale_init_value = 2.6592 return_dict = True **kwargs )

引數

text_config (dict, 可選) — 用於初始化 Owlv2TextConfig 的配置選項字典。
vision_config (dict, 可選) — 用於初始化 Owlv2VisionConfig 的配置選項字典。
projection_dim (int, 可選, 預設為 512) — 文字和視覺投影層的維度。
logit_scale_init_value (float, 可選, 預設為 2.6592) — logit_scale 引數的初始值。預設值根據原始 OWLv2 實現使用。
return_dict (bool, 可選, 預設為 True) — 模型是否應返回一個字典。如果為 False，則返回一個元組。
kwargs (可選) — 關鍵字引數字典。

Owlv2Config 是用於儲存 Owlv2Model 配置的配置類。它用於根據指定的引數例項化一個 OWLv2 模型，定義文字模型和視覺模型的配置。使用預設值例項化配置將產生與 OWLv2 google/owlv2-base-patch16 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

from_text_vision_configs

< 原始碼 >

( text_config: dict vision_config: dict **kwargs ) → Owlv2Config

Owlv2Config

一個配置物件的例項

根據 owlv2 文字模型配置和 owlv2 視覺模型配置例項化一個 Owlv2Config（或其派生類）。

Owlv2TextConfig

class transformers.Owlv2TextConfig

< 原始碼 >

( vocab_size = 49408 hidden_size = 512 intermediate_size = 2048 num_hidden_layers = 12 num_attention_heads = 8 max_position_embeddings = 16 hidden_act = 'quick_gelu' layer_norm_eps = 1e-05 attention_dropout = 0.0 initializer_range = 0.02 initializer_factor = 1.0 pad_token_id = 0 bos_token_id = 49406 eos_token_id = 49407 **kwargs )

引數

vocab_size (int, 可選, 預設為 49408) — OWLv2 文字模型的詞彙表大小。定義了在呼叫 Owlv2TextModel 時傳遞的 inputs_ids 可以表示的不同 token 的數量。
hidden_size (int, 可選, 預設為 512) — 編碼器層和池化層的維度。
intermediate_size (int, 可選, 預設為 2048) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 8) — Transformer 編碼器中每個注意力層的注意力頭數量。
max_position_embeddings (int, 可選, 預設為 16) — 該模型可能使用的最大序列長度。通常將其設定為較大的值以防萬一（例如 512、1024 或 2048）。
hidden_act (str 或 function, 可選, 預設為 "quick_gelu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"selu"、"gelu_new" 和 "quick_gelu"。
layer_norm_eps (float, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
initializer_factor (float, 可選, 預設為 1.0) — 初始化所有權重矩陣的因子（應保持為 1，用於內部初始化測試）。
pad_token_id (int, 可選, 預設為 0) — 輸入序列中填充 token 的 id。
bos_token_id (int, 可選, 預設為 49406) — 輸入序列中序列開始 token 的 id。
eos_token_id (int, 可選, 預設為 49407) — 輸入序列中序列結束 token 的 id。

這是用於儲存 Owlv2TextModel 配置的配置類。它用於根據指定的引數例項化一個 Owlv2 文字編碼器，定義模型架構。使用預設值例項化配置將產生與 Owlv2 google/owlv2-base-patch16 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import Owlv2TextConfig, Owlv2TextModel

>>> # Initializing a Owlv2TextModel with google/owlv2-base-patch16 style configuration
>>> configuration = Owlv2TextConfig()

>>> # Initializing a Owlv2TextConfig from the google/owlv2-base-patch16 style configuration
>>> model = Owlv2TextModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Owlv2VisionConfig

class transformers.Owlv2VisionConfig

< 原始碼 >

( hidden_size = 768 intermediate_size = 3072 num_hidden_layers = 12 num_attention_heads = 12 num_channels = 3 image_size = 768 patch_size = 16 hidden_act = 'quick_gelu' layer_norm_eps = 1e-05 attention_dropout = 0.0 initializer_range = 0.02 initializer_factor = 1.0 **kwargs )

引數

hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
num_channels (int, 可選, 預設為 3) — 輸入影像中的通道數。
image_size (int, 可選, 預設為 768) — 每個影像的大小（解析度）。
patch_size (int, 可選, 預設為 16) — 每個補丁（patch）的大小（解析度）。
hidden_act (str or function, 可選, 預設為 "quick_gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果為字串，支援 "gelu"、"relu"、"selu"、"gelu_new" 和 "quick_gelu"。
layer_norm_eps (float, 可選, 預設為 1e-05) — 層歸一化層使用的 epsilon 值。
attention_dropout (float, 可選, 預設為 0.0) — 注意力機率的 dropout 比率。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
initializer_factor (float, 可選, 預設為 1.0) — 用於初始化所有權重矩陣的因子（應保持為 1，內部用於初始化測試）。

這是用於儲存 Owlv2VisionModel 配置的配置類。它根據指定的引數例項化一個 OWLv2 影像編碼器，定義模型架構。使用預設值例項化配置將產生與 OWLv2 google/owlv2-base-patch16 架構相似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 的文件。

示例

>>> from transformers import Owlv2VisionConfig, Owlv2VisionModel

>>> # Initializing a Owlv2VisionModel with google/owlv2-base-patch16 style configuration
>>> configuration = Owlv2VisionConfig()

>>> # Initializing a Owlv2VisionModel model from the google/owlv2-base-patch16 style configuration
>>> model = Owlv2VisionModel(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

Transformers

OWLv2

概述

用法示例

資源

Owlv2Config

class transformers.Owlv2Config

from_text_vision_configs

Owlv2TextConfig

class transformers.Owlv2TextConfig

Owlv2VisionConfig

class transformers.Owlv2VisionConfig

Owlv2ImageProcessor

class transformers.Owlv2ImageProcessor

preprocess

post_process_object_detection

post_process_image_guided_detection

Owlv2Processor

class transformers.Owlv2Processor

__call__

post_process_grounded_object_detection

post_process_image_guided_detection

Owlv2Model

class transformers.Owlv2Model

forward

get_text_features

get_image_features

Owlv2TextModel

class transformers.Owlv2TextModel

forward

Owlv2VisionModel

class transformers.Owlv2VisionModel

forward

Owlv2ForObjectDetection

class transformers.Owlv2ForObjectDetection

forward

image_guided_detection

call