分詞器文件
輸入序列
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
輸入序列
Python
Rust
Node
這些型別代表了所有可以作為分詞器輸入的不同種類的序列。總的來說,根據分詞器的操作模式(原始文字 vs 預分詞),任何序列都可以是字串或字串列表。
TextInputSequence
tokenizers.TextInputSequence 表示輸入序列的 str
PreTokenizedInputSequence
tokenizers.PreTokenizedInputSequence 預分詞的輸入序列。可以是以下之一:
str的Liststr的Tuple
Union[List[str], Tuple[str]] 的別名。
InputSequence
tokenizers.InputSequence 表示用於編碼的所有可能輸入序列型別。可以是:
- 當
is_pretokenized=False時:TextInputSequence - 當
is_pretokenized=True時:PreTokenizedInputSequence
Union[str, List[str], Tuple[str]] 的別名。