編碼輸入

Python

Rust

Node

這些型別表示在使用 encode_batch() 時 Tokenizer 接受的所有不同型別的輸入。

TextEncodeInput[[[ tokenizers.TextEncodeInput ]]]

tokenizers.TextEncodeInput

表示用於編碼的文字輸入。可以是

單個序列: TextInputSequence
一對序列
- TextInputSequence 的元組（Tuple）
- 或者大小為 2 的 TextInputSequence 列表（List）

Union[str, Tuple[str, str], List[str]] 的別名。

PreTokenizedEncodeInput[[[ tokenizers.PreTokenizedEncodeInput ]]]

tokenizers.PreTokenizedEncodeInput

表示用於編碼的預分詞輸入。可以是

單個序列: PreTokenizedInputSequence
一對序列
- PreTokenizedInputSequence 的元組（Tuple）
- 或者大小為 2 的 PreTokenizedInputSequence 列表（List）

Union[List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]] 的別名。

EncodeInput[[[ tokenizers.EncodeInput ]]]

tokenizers.EncodeInput

表示所有可能的編碼輸入型別。可以是

當 is_pretokenized=False 時: TextEncodeInput
當 is_pretokenized=True 時: PreTokenizedEncodeInput

Union[str, Tuple[str, str], List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]] 的別名。

< > 在 GitHub 上更新

Tokenizers

編碼輸入

TextEncodeInput[[[ tokenizers.TextEncodeInput ]]]

PreTokenizedEncodeInput[[[ tokenizers.PreTokenizedEncodeInput ]]]

EncodeInput[[[ tokenizers.EncodeInput ]]]