分詞器文件
輸入序列
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
輸入序列
Python
Rust
Node
這些型別代表了所有可以作為分詞器輸入的不同種類的序列。總的來說,根據分詞器的操作模式(原始文字
vs 預分詞
),任何序列都可以是字串或字串列表。
TextInputSequence
tokenizers.TextInputSequence
表示輸入序列的 str
PreTokenizedInputSequence
tokenizers.PreTokenizedInputSequence
預分詞的輸入序列。可以是以下之一:
str
的List
str
的Tuple
Union[List[str], Tuple[str]]
的別名。
InputSequence
tokenizers.InputSequence
表示用於編碼的所有可能輸入序列型別。可以是:
- 當
is_pretokenized=False
時:TextInputSequence - 當
is_pretokenized=True
時:PreTokenizedInputSequence
Union[str, List[str], Tuple[str]]
的別名。