分詞器文件
預分詞器
並獲得增強的文件體驗
開始使用
預分詞器
BertPreTokenizer
BertPreTokenizer
該預分詞器按空格和標點符號對詞符進行切分。每個標點符號的出現都將被單獨處理。
ByteLevel
ByteLevel 預分詞器
此預分詞器負責將給定字串的所有位元組替換為相應的表示形式,並將其切分為單詞。
CharDelimiterSplit
Digits
Metaspace
class tokenizers.pre_tokenizers.Metaspace
( replacement = '_' prepend_scheme = 'always' split = True )
Metaspace 預分詞器
此預分詞器將任何空白字元替換為提供的替換字元。然後,它會嘗試按這些空格進行切分。
PreTokenizer
所有預分詞器的基類
此類不應直接例項化。相反,任何預分詞器的實現在例項化時都會返回此類的例項。
對 ~tokenizers.PyPreTokenizedString
進行原地預分詞
此方法允許修改 PreTokenizedString
以跟蹤預分詞過程,並利用 PreTokenizedString
的功能。如果您只想檢視原始字串的預分詞結果,可以使用 pre_tokenize_str()
。
對給定字串進行預分詞
此方法提供了一種視覺化 PreTokenizer 效果的方式,但它不跟蹤對齊資訊,也不提供 PreTokenizedString
的所有功能。如果您需要這些功能,可以使用 pre_tokenize()
。
Punctuation
Sequence
Split
class tokenizers.pre_tokenizers.Split
( pattern behavior invert = False )
引數
- pattern (
str
orRegex
) — 用於切分字串的模式。通常是字串或使用 tokenizers.Regex 構建的正則表示式。如果要使用正則表示式模式,必須用 tokenizer.Regex 包裝,否則我們將其視為字串模式。例如,pattern=”|” 表示您想按 | 切分(例如,想象一個 csv 檔案),而 patter=tokenizer.Regex(“1|2”) 表示您按“1”或“2”切分。 - behavior (
SplitDelimiterBehavior
) — 切分時使用的行為。選項:“removed”、“isolated”、“merged_with_previous”、“merged_with_next”、“contiguous” - invert (
bool
, 可選, 預設為False
) — 是否反轉模式。
Split 預分詞器
這個多功能的預分詞器使用提供的模式並根據提供的行為進行切分。可以透過使用 invert 標誌來反轉模式。
UnicodeScripts
此預分詞器根據屬於不同語系的字元進行切分,大致遵循 https://github.com/google/sentencepiece/blob/master/data/Scripts.txt。實際上,平假名和片假名與漢字合併,0x30FC 也被視為漢字。這模仿了 SentencePiece Unigram 的實現。