分詞器文件
編碼輸入
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
編碼輸入
Python
Rust
Node
這些型別表示在使用 encode_batch()
時 Tokenizer 接受的所有不同型別的輸入。
TextEncodeInput[[[ tokenizers.TextEncodeInput ]]]
tokenizers.TextEncodeInput
表示用於編碼的文字輸入。可以是
- 單個序列: TextInputSequence
- 一對序列
- TextInputSequence 的元組(Tuple)
- 或者大小為 2 的 TextInputSequence 列表(List)
Union[str, Tuple[str, str], List[str]]
的別名。
PreTokenizedEncodeInput[[[ tokenizers.PreTokenizedEncodeInput ]]]
tokenizers.PreTokenizedEncodeInput
表示用於編碼的預分詞輸入。可以是
- 單個序列: PreTokenizedInputSequence
- 一對序列
- PreTokenizedInputSequence 的元組(Tuple)
- 或者大小為 2 的 PreTokenizedInputSequence 列表(List)
Union[List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]]
的別名。
EncodeInput[[[ tokenizers.EncodeInput ]]]
tokenizers.EncodeInput
表示所有可能的編碼輸入型別。可以是
- 當
is_pretokenized=False
時: TextEncodeInput - 當
is_pretokenized=True
時: PreTokenizedEncodeInput
Union[str, Tuple[str, str], List[str], Tuple[str], Tuple[Union[List[str], Tuple[str]], Union[List[str], Tuple[str]]], List[Union[List[str], Tuple[str]]]]
的別名。