OneFormer

概述

OneFormer 模型由 Jitesh Jain、Jiachen Li、MangTik Chiu、Ali Hassani、Nikita Orlov 和 Humphrey Shi 在 OneFormer: One Transformer to Rule Universal Image Segmentation 中提出。OneFormer 是一個通用影像分割框架，可以在單個全景資料集上訓練，以執行語義分割、例項分割和全景分割任務。OneFormer 使用任務標記來根據焦點任務對模型進行條件化，使架構在訓練時以任務為導向，在推理時以任務為動態。

論文摘要如下：

通用影像分割並非新概念。過去幾十年中統一影像分割的嘗試包括場景解析、全景分割，以及最近的新的全景架構。然而，這些全景架構並不能真正統一影像分割，因為它們需要分別在語義分割、例項分割或全景分割上進行單獨訓練才能達到最佳效能。理想情況下，一個真正通用的框架應該只訓練一次，並在所有三個影像分割任務上都達到 SOTA 效能。為此，我們提出了 OneFormer，一個透過多工一次訓練設計來統一分割的通用影像分割框架。我們首先提出了一種任務條件下的聯合訓練策略，該策略允許在單個多工訓練過程中，針對每個領域（語義分割、例項分割和全景分割）的真實標籤進行訓練。其次，我們引入了一個任務標記來根據當前任務對模型進行條件化，使我們的模型具有任務動態性，以支援多工訓練和推理。第三，我們建議在訓練期間使用查詢-文字對比損失來建立更好的任務間和類別間區分。值得注意的是，儘管 Mask2Former 模型在 ADE20k、CityScapes 和 COCO 上對每個任務都單獨訓練，並使用了三倍的資源，但我們的單個 OneFormer 模型在所有三個分割任務上的效能都優於專門的 Mask2Former 模型。透過新的 ConvNeXt 和 DiNAT 主幹網路，我們觀察到更顯著的效能提升。我們相信 OneFormer 是使影像分割更加通用和易於訪問的重要一步。

下圖展示了 OneFormer 的架構。摘自原文。

該模型由 Jitesh Jain 貢獻。原始程式碼可在此處找到。

使用技巧

OneFormer 在推理時需要兩個輸入：_影像_和_任務標記_。
在訓練期間，OneFormer 只使用全景標註。
如果要在多個節點組成的分散式環境中訓練模型，則應更新 modeling_oneformer.py 中 OneFormerLoss 類內的 get_num_masks 函式。在多節點訓練時，此值應設定為所有節點上目標掩碼的平均數量，如原始實現此處所示。
可以使用OneFormerProcessor為模型準備輸入影像和任務輸入，以及可選的模型目標。OneFormerProcessor將OneFormerImageProcessor和CLIPTokenizer封裝在一個例項中，以便同時準備影像和編碼任務輸入。
要獲得最終分割，根據任務的不同，可以呼叫post_process_semantic_segmentation()、post_process_instance_segmentation()或post_process_panoptic_segmentation()。所有三個任務都可以使用OneFormerForUniversalSegmentation的輸出來解決，全景分割接受一個可選的label_ids_to_fuse引數來融合目標物件（例如天空）的例項。

資源

官方 Hugging Face 和社群（🌎 表示）資源列表，幫助您開始使用 OneFormer。

有關自定義資料推理 + 微調的演示筆記本可在此處找到。

如果您有興趣提交資源以供此處收錄，請隨時發起拉取請求，我們將對其進行審查。理想情況下，資源應展示新內容，而非重複現有資源。

Transformers

OneFormer

概述

使用技巧

資源

OneFormer 特有輸出

類 transformers.models.oneformer.modeling_oneformer.OneFormerModelOutput

類 transformers.models.oneformer.modeling_oneformer.OneFormerForUniversalSegmentationOutput

OneFormerConfig

class transformers.OneFormerConfig

OneFormerImageProcessor

class transformers.OneFormerImageProcessor

預處理

編碼輸入

後處理語義分割

後處理例項分割

後處理全景分割

OneFormerProcessor

class transformers.OneFormerProcessor

編碼輸入

後處理例項分割

後處理全景分割

後處理語義分割

OneFormerModel

class transformers.OneFormerModel

正向傳播

OneFormerForUniversalSegmentation

class transformers.OneFormerForUniversalSegmentation

正向傳播