LayoutLMv3

概述

LayoutLMv3 模型由 Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei 在 LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking 中提出。LayoutLMv3 簡化了 LayoutLMv2，它使用補丁嵌入（如在 ViT 中）而不是利用 CNN 主幹，並使用 3 個目標對模型進行預訓練：掩碼語言建模（MLM）、掩碼影像建模（MIM）和詞-補丁對齊（WPA）。

論文摘要如下：

自監督預訓練技術在文件 AI 領域取得了顯著進展。大多數多模態預訓練模型使用掩碼語言建模目標來學習文字模態上的雙向表示，但它們在影像模態的預訓練目標上有所不同。這種差異增加了多模態表示學習的難度。在本文中，我們提出了 LayoutLMv3，透過統一的文字和影像掩碼對文件 AI 的多模態 Transformer 進行預訓練。此外，LayoutLMv3 透過詞-補丁對齊目標進行預訓練，透過預測文字詞的相應影像補丁是否被掩碼來學習跨模態對齊。簡單統一的架構和訓練目標使 LayoutLMv3 成為文字中心和影像中心文件 AI 任務的通用預訓練模型。實驗結果表明，LayoutLMv3 不僅在文字中心任務（包括表單理解、收據理解和文件視覺問答）中，而且在影像中心任務（如文件影像分類和文件佈局分析）中都達到了最先進的效能。

LayoutLMv3 架構。摘自原始論文。

該模型由 nielsr 貢獻。該模型的 TensorFlow 版本由 chriskoo、tokec 和 lre 新增。原始程式碼可在此處找到。

用法提示

在資料處理方面，LayoutLMv3 與其前身 LayoutLMv2 相同，除了：
- 影像需要調整大小並以常規 RGB 格式的通道進行歸一化。而 LayoutLMv2 在內部對影像進行歸一化，並期望通道以 BGR 格式。
- 文字使用位元組對編碼 (BPE) 進行標記化，而不是 WordPiece。由於資料預處理的這些差異，可以使用 LayoutLMv3Processor，它在內部結合了 LayoutLMv3ImageProcessor（用於影像模態）和 LayoutLMv3Tokenizer/LayoutLMv3TokenizerFast（用於文字模態）來準備模型的所有資料。
關於 LayoutLMv3Processor 的使用，請參閱其前身的使用指南。

資源

官方 Hugging Face 和社群（以🌎表示）資源的列表，以幫助您開始使用 LayoutLMv3。如果您有興趣提交資源以包含在此處，請隨時開啟拉取請求，我們將對其進行審查！該資源理想情況下應展示一些新內容，而不是重複現有資源。

LayoutLMv3 幾乎與 LayoutLMv2 完全相同，因此我們也包含了您可以為 LayoutLMv3 任務改編的 LayoutLMv2 資源。對於這些筆記本，在為模型準備資料時，請務必改用 LayoutLMv2Processor！

LayoutLMv3 的演示筆記本可以在此處找到。
演示指令碼可以在此處找到。

文字分類

LayoutLMv2ForSequenceClassification 由此筆記本支援。
文字分類任務指南

Token 分類

LayoutLMv3ForTokenClassification 由此示例指令碼和筆記本支援。
一個關於如何使用 LayoutLMv2ForTokenClassification 執行推理的筆記本，以及一個關於在沒有標籤的情況下如何使用 LayoutLMv2ForTokenClassification 執行推理的筆記本。
一個關於如何使用 🤗 Trainer 對 LayoutLMv2ForTokenClassification 進行微調的筆記本。
Token分類任務指南

問答

LayoutLMv2ForQuestionAnswering 由此筆記本支援。
問答任務指南

文件問答

文件問答任務指南

LayoutLMv3Config

class transformers.LayoutLMv3Config

< 來源 >

( vocab_size = 50265 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-05 pad_token_id = 1 bos_token_id = 0 eos_token_id = 2 max_2d_position_embeddings = 1024 coordinate_size = 128 shape_size = 128 has_relative_attention_bias = True rel_pos_bins = 32 max_rel_pos = 128 rel_2d_pos_bins = 64 max_rel_2d_pos = 256 has_spatial_attention_bias = True text_embed = True visual_embed = True input_size = 224 num_channels = 3 patch_size = 16 classifier_dropout = None **kwargs )

引數

vocab_size (int, 可選, 預設為 50265) — LayoutLMv3 模型的詞彙表大小。定義了呼叫 LayoutLMv3Model 時傳入的 inputs_ids 可以表示的不同 token 的數量。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個 attention 層的 attention head 數量。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間”（即前饋）層的維度。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化器中的非線性啟用函式（函式或字串）。如果是字串，支援 "gelu"、"relu"、"selu" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.1) — 嵌入、編碼器和池化器中所有全連線層的 dropout 機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.1) — attention 機率的 dropout 比率。
max_position_embeddings (int, 可選, 預設為 512) — 此模型可能使用的最大序列長度。通常為了以防萬一會設定一個較大的值（例如 512 或 1024 或 2048）。
type_vocab_size (int, 可選, 預設為 2) — 呼叫 LayoutLMv3Model 時傳入的 token_type_ids 的詞彙表大小。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的截斷正態分佈初始化器的標準差。
layer_norm_eps (float, 可選, 預設為 1e-5) — 層歸一化層使用的 epsilon 值。
max_2d_position_embeddings (int, 可選, 預設為 1024) — 2D 位置嵌入可能使用的最大值。通常為了以防萬一會設定一個較大的值（例如 1024）。
coordinate_size (int, 可選, 預設為 128) — 座標嵌入的維度。
shape_size (int, 可選, 預設為 128) — 寬度和高度嵌入的維度。
has_relative_attention_bias (bool, 可選, 預設為 True) — 是否在自注意力機制中使用相對注意力偏差。
rel_pos_bins (int, 可選, 預設為 32) — 自注意力機制中使用的相對位置 bin 的數量。
max_rel_pos (int, 可選, 預設為 128) — 自注意力機制中使用的相對位置的最大數量。
max_rel_2d_pos (int, 可選, 預設為 256) — 自注意力機制中 2D 相對位置的最大數量。
rel_2d_pos_bins (int, 可選, 預設為 64) — 自注意力機制中 2D 相對位置 bin 的數量。
has_spatial_attention_bias (bool, 可選, 預設為 True) — 是否在自注意力機制中使用空間注意力偏差。
visual_embed (bool, 可選, 預設為 True) — 是否新增補丁嵌入。
input_size (int, 可選, 預設為 224) — 影像的大小（解析度）。
num_channels (int, 可選, 預設為 3) — 影像的通道數。
patch_size (int, 可選, 預設為 16) — 補丁的大小（解析度）。
classifier_dropout (float, 可選) — 分類頭的 dropout 比率。

這是用於儲存 LayoutLMv3Model 配置的配置類。它用於根據指定的引數例項化 LayoutLMv3 模型，定義模型架構。使用預設值例項化配置將產生與 LayoutLMv3 microsoft/layoutlmv3-base 架構類似的配置。

配置物件繼承自 PretrainedConfig，可用於控制模型輸出。更多資訊請參閱 PretrainedConfig 的文件。

示例

>>> from transformers import LayoutLMv3Config, LayoutLMv3Model

>>> # Initializing a LayoutLMv3 microsoft/layoutlmv3-base style configuration
>>> configuration = LayoutLMv3Config()

>>> # Initializing a model (with random weights) from the microsoft/layoutlmv3-base style configuration
>>> model = LayoutLMv3Model(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

LayoutLMv3FeatureExtractor

class transformers.LayoutLMv3FeatureExtractor

< 來源 >

( *args **kwargs )

call

< 來源 >

( 影像 **kwargs )

預處理單張或批次影像。

Transformers

LayoutLMv3

概述

用法提示

資源

LayoutLMv3Config

class transformers.LayoutLMv3Config

LayoutLMv3FeatureExtractor

class transformers.LayoutLMv3FeatureExtractor

__call__

LayoutLMv3ImageProcessor

class transformers.LayoutLMv3ImageProcessor

預處理

LayoutLMv3ImageProcessorFast

class transformers.LayoutLMv3ImageProcessorFast

預處理

LayoutLMv3Tokenizer

class transformers.LayoutLMv3Tokenizer

__call__

save_vocabulary

LayoutLMv3TokenizerFast

class transformers.LayoutLMv3TokenizerFast

__call__

LayoutLMv3Processor

類 transformers.LayoutLMv3Processor

__call__

LayoutLMv3Model

類 transformers.LayoutLMv3Model

前向傳播

LayoutLMv3ForSequenceClassification

類 transformers.LayoutLMv3ForSequenceClassification

前向傳播

LayoutLMv3ForTokenClassification

class transformers.LayoutLMv3ForTokenClassification

前向傳播

LayoutLMv3ForQuestionAnswering

class transformers.LayoutLMv3ForQuestionAnswering

前向傳播

TFLayoutLMv3Model

類 transformers.TFLayoutLMv3Model

呼叫

TFLayoutLMv3ForSequenceClassification

類 transformers.TFLayoutLMv3ForSequenceClassification

呼叫

TFLayoutLMv3ForTokenClassification

類 transformers.TFLayoutLMv3ForTokenClassification

呼叫

TFLayoutLMv3ForQuestionAnswering

class transformers.TFLayoutLMv3ForQuestionAnswering

呼叫

call

call

call

call