處理器

在 Transformers 庫中，處理器（Processors）可能指兩種不同的東西：

用於預處理多模態模型輸入的對象，例如 Wav2Vec2（語音和文字）或 CLIP（文字和視覺）。
在舊版庫中用於為 GLUE 或 SQUAD 預處理資料的已棄用物件。

多模態處理器

任何多模態模型都需要一個物件來編碼或解碼組合了多種模態（文字、視覺、音訊）的資料。這由稱為處理器的物件處理，這些物件組合了兩個或多個處理物件，例如分詞器（用於文字模態）、影像處理器（用於視覺）和特徵提取器（用於音訊）。

這些處理器繼承自以下基類，該基類實現了儲存和載入功能：

class transformers.ProcessorMixin

< 源 >

( *args **kwargs )

這是一個混入（mixin），用於為所有處理器類提供儲存/載入功能。

apply_chat_template

< 源 >

( conversation: typing.Union[list[dict[str, str]], list[list[dict[str, str]]]] chat_template: typing.Optional[str] = None **kwargs: typing_extensions.Unpack[transformers.processing_utils.AllKwargsForChatTemplate] )

引數

conversation (Union[list[Dict, [str, str]], list[list[dict[str, str]]]]) — 要格式化的對話。
chat_template (Optional[str], 可選) — 用於格式化對話的 Jinja 模板。如果未提供，則使用分詞器的聊天模板。

與分詞器上的 `apply_chat_template` 方法類似，此方法將 Jinja 模板應用於輸入對話，將其轉換為單個可分詞的字串。

輸入應為以下格式，其中每條訊息內容是一個列表，包含文字以及可選的影像或影片輸入。也可以提供影像、影片、URL 或本地路徑，當 `return_dict=True` 時，這些將被用於形成 `pixel_values`。如果未提供，將只獲得格式化的文字，或可選的分詞後的文字。

conversation = [ { “role”: “user”, “content”: [ {“type”: “image”, “url”: “https://www.ilankelman.org/stopsigns/australia.jpg”}, {“type”: “text”, “text”: “請詳細描述這張圖片。”}, ], }, ]

check_argument_for_proper_class

< 源 >

( argument_name argument )

檢查傳入引數的類是否與預期的 transformers 類匹配。如果預期類與實際類之間出現意外不匹配，則會引發錯誤。否則，返回正確檢索到的類。

from_args_and_dict

< 源 >

( args processor_dict: dict **kwargs ) → ~processing_utils.ProcessingMixin

引數

processor_dict (dict[str, Any]) — 用於例項化處理器物件的字典。此類字典可以利用 `~processing_utils.ProcessingMixin.to_dict` 方法從預訓練的檢查點中檢索。
kwargs (dict[str, Any]) — 用於初始化處理器物件的附加引數。

~processing_utils.ProcessingMixin

從這些引數例項化的處理器物件。

從一個 Python 引數字典例項化 `~processing_utils.ProcessingMixin` 型別的物件。

from_pretrained

< 源 >

( pretrained_model_name_or_path: typing.Union[str, os.PathLike] cache_dir: typing.Union[str, os.PathLike, NoneType] = None force_download: bool = False local_files_only: bool = False token: typing.Union[str, bool, NoneType] = None revision: str = 'main' **kwargs )

引數

pretrained_model_name_or_path (str or os.PathLike) — 這可以是以下之一：
- 一個字串，即託管在 huggingface.co 模型倉庫中的預訓練 feature_extractor 的 *模型 id*。
- 一個包含使用 save_pretrained() 方法儲存的特徵提取器檔案的 *目錄* 的路徑，例如，`./my_model_directory/`。
- 一個已儲存的特徵提取器 JSON *檔案* 的路徑或 URL，例如，`./my_model_directory/preprocessor_config.json`。
**kwargs — 傳遞給 from_pretrained() 和 `~tokenization_utils_base.PreTrainedTokenizer.from_pretrained` 的附加關鍵字引數。

例項化與預訓練模型關聯的處理器。

此類方法僅呼叫特徵提取器的 from_pretrained()、影像處理器的 ImageProcessingMixin 和分詞器的 `~tokenization_utils_base.PreTrainedTokenizer.from_pretrained` 方法。請參閱上述方法的文件字串以獲取更多資訊。

get_processor_dict

< 源 >

( pretrained_model_name_or_path: typing.Union[str, os.PathLike] **kwargs ) → tuple[Dict, Dict]

引數

pretrained_model_name_or_path (str or os.PathLike) — 我們想要獲取引數字典的預訓練檢查點的識別符號。
subfolder (str, 可選, 預設為 "") — 如果相關檔案位於 huggingface.co 上的模型倉庫的子資料夾中，可以在此處指定資料夾名稱。

tuple[Dict, Dict]

用於例項化處理器物件的字典。

從一個 `pretrained_model_name_or_path` 解析出一個引數字典，用於使用 `from_args_and_dict` 例項化一個 `~processing_utils.ProcessingMixin` 型別的處理器。

post_process_image_text_to_text

< 源 >

( generated_outputs skip_special_tokens = True **kwargs ) → list[str]

引數

generated_outputs (torch.Tensor or np.ndarray) — 模型 `generate` 函式的輸出。輸出應為一個形狀為 `(batch_size, sequence_length)` 或 `(sequence_length,)` 的張量。
skip_special_tokens (bool, 可選, 預設為 True) — 是否在輸出中移除特殊標記。此引數會傳遞給分詞器的 `batch_decode` 方法。
**kwargs — 要傳遞給分詞器 `batch_decode` 方法的附加引數。

list[str]

解碼後的文字。

後處理視覺語言模型（VLM）的輸出以解碼文字。

prepare_and_validate_optional_call_args

< 源 >

( *args )

將可選的位置引數與處理器類中的 `optional_call_args` 中的相應名稱按它們傳遞給處理器呼叫的順序進行匹配。

請注意，這隻應在具有特殊引數的處理器的 `__call__` 方法中使用。特殊引數是指既不是 `text`、`images`、`audio`、`videos`，也不是傳遞給分詞器、影像處理器等的引數。這類處理器的例子有：

CLIPSegProcessor
LayoutLMv2Processor
OwlViTProcessor

另請注意，透過位置向處理器呼叫傳遞引數現已棄用，並將在未來版本中被禁止。我們保留此功能僅為向後相容。

例如：假設處理器類有 `optional_call_args = ["arg_name_1", "arg_name_2"]`。

我們定義 call 方法如下：

def __call__(
    self,
    text: str,
    images: Optional[ImageInput] = None,
    *arg,
    audio=None,
    videos=None,
)

那麼，如果我們這樣呼叫處理器：

images = [...]
processor("What is common in these images?", images, arg_value_1, arg_value_2)

此方法將返回：

{
    "arg_name_1": arg_value_1,
    "arg_name_2": arg_value_2,
}

然後我們可以將其作為 kwargs 傳遞給 `self._merge_kwargs`

push_to_hub

< 源 >

( repo_id: str use_temp_dir: typing.Optional[bool] = None commit_message: typing.Optional[str] = None private: typing.Optional[bool] = None token: typing.Union[bool, str, NoneType] = None max_shard_size: typing.Union[str, int, NoneType] = '5GB' create_pr: bool = False safe_serialization: bool = True revision: typing.Optional[str] = None commit_description: typing.Optional[str] = None tags: typing.Optional[list[str]] = None **deprecated_kwargs )

引數

repo_id (str) — 您想要將處理器推送到的倉庫名稱。當推送到特定組織時，它應包含您的組織名稱。
use_temp_dir (bool, 可選) — 是否使用臨時目錄來儲存推送到 Hub 之前儲存的檔案。如果沒有名為 `repo_id` 的目錄，則預設為 `True`，否則為 `False`。
commit_message (str, 可選) — 推送時提交的訊息。將預設為 `"Upload processor"`。
private (bool, 可選) — 是否將倉庫設為私有。如果為 `None` (預設)，除非組織的預設設定為私有，否則倉庫將為公開。如果倉庫已存在，則忽略此值。
token (bool or str, 可選) — 用於遠端檔案 HTTP 持有者授權的令牌。如果為 `True`，將使用執行 `huggingface-cli login` 時生成的令牌 (儲存在 `~/.huggingface` 中)。如果未指定 `repo_url`，則預設為 `True`。
max_shard_size (int or str, 可選, 預設為 "5GB") — 僅適用於模型。在分片前檢查點的最大大小。檢查點分片的大小將小於此大小。如果表示為字串，需要是數字後跟一個單位 (如 `"5MB"`)。我們將其預設為 `"5GB"`，以便使用者可以輕鬆在免費的 Google Colab 例項上載入模型，而不會出現 CPU 記憶體不足的問題。
create_pr (bool, 可選, 預設為 False) — 是為上傳的檔案建立一個拉取請求（PR）還是直接提交。
safe_serialization (bool, 可選, 預設為 True) — 是否將模型權重轉換為 safetensors 格式以實現更安全的序列化。
revision (str, 可選) — 推送上傳檔案到的分支。
commit_description (str, 可選) — 將要建立的提交的描述
tags (list[str], 可選) — 要推送到 Hub 的標籤列表。

將處理器檔案上傳到 🤗 模型中心。

示例

from transformers import AutoProcessor

processor = AutoProcessor.from_pretrained("google-bert/bert-base-cased")

# Push the processor to your namespace with the name "my-finetuned-bert".
processor.push_to_hub("my-finetuned-bert")

# Push the processor to an organization with the name "my-finetuned-bert".
processor.push_to_hub("huggingface/my-finetuned-bert")

register_for_auto_class

< 源 >

( auto_class = 'AutoProcessor' )

引數

auto_class (str or type, 可選, 預設為 "AutoProcessor") — 要註冊此新特徵提取器的自動類。

向給定的自動類註冊此類。這隻應用於自定義特徵提取器，因為庫中的特徵提取器已經與 `AutoProcessor` 對映。

save_pretrained

< 源 >

( save_directory push_to_hub: bool = False **kwargs )

引數

save_directory (str or os.PathLike) — 將儲存特徵提取器 JSON 檔案和分詞器檔案的目錄（如果不存在，將建立該目錄）。
push_to_hub (bool, 可選, 預設為 False) — 是否在儲存模型後將其推送到 Hugging Face 模型中心。您可以使用 `repo_id` 指定要推送到的倉庫（將預設為您名稱空間中 `save_directory` 的名稱）。
kwargs (dict[str, Any], 可選) — 傳遞給 push_to_hub() 方法的附加關鍵字引數。

將此處理器（特徵提取器、分詞器…）的屬性儲存在指定目錄中，以便可以使用 from_pretrained() 方法重新載入。

這個類方法只是簡單地呼叫 save_pretrained() 和 save_pretrained()。有關更多資訊，請參閱上述方法的文件字串。

Transformers

處理器

多模態處理器

class transformers.ProcessorMixin

apply_chat_template

check_argument_for_proper_class

from_args_and_dict

from_pretrained

get_processor_dict

post_process_image_text_to_text

prepare_and_validate_optional_call_args

push_to_hub

register_for_auto_class

save_pretrained

to_dict

to_json_file

to_json_string

已棄用的處理器

class transformers.DataProcessor

get_dev_examples

get_example_from_tensor_dict

get_labels

get_test_examples

get_train_examples

tfds_map

class transformers.InputExample

to_json_string

class transformers.InputFeatures

to_json_string

GLUE

transformers.glue_convert_examples_to_features

XNLI

SQuAD

處理器

class transformers.data.processors.squad.SquadProcessor

get_dev_examples

get_examples_from_dataset

get_train_examples

transformers.squad_convert_examples_to_features

用法示例