分詞器
加入 Hugging Face 社群
並獲得增強的文件體驗
歸一化器
BertNormalizer
class tokenizers.normalizers.BertNormalizer
( clean_text = True handle_chinese_chars = True strip_accents = None lowercase = True )
引數
- clean_text (
bool
, optional, 預設為 True
) — 是否清理文字,透過移除任何控制字元並將所有空白符替換為標準空格。 - handle_chinese_chars (
bool
, optional, 預設為 True
) — 是否處理中文字元,在它們周圍新增空格。 - strip_accents (
bool
, optional) — 是否去除所有重音符號。如果未指定此選項(即 == None),則將由 lowercase 的值決定(與原始 Bert 一致)。 - lowercase (
bool
, optional, 預設為 True
) — 是否轉換為小寫。
BertNormalizer
負責在將原始文字提供給 Bert 模型之前對其進行歸一化。這包括清理文字、處理重音、中文字元和轉換為小寫。
Lowercase
class tokenizers.normalizers.Lowercase
( )
小寫轉換歸一化器
NFC
class tokenizers.normalizers.NFC
( )
NFC Unicode 歸一化器
NFD
class tokenizers.normalizers.NFD
( )
NFD Unicode 歸一化器
NFKC
class tokenizers.normalizers.NFKC
( )
NFKC Unicode 歸一化器
NFKD
class tokenizers.normalizers.NFKD
( )
NFKD Unicode 歸一化器
Nmt
class tokenizers.normalizers.Nmt
( )
Nmt 歸一化器
Normalizer
class tokenizers.normalizers.Normalizer
( )
所有歸一化器的基類
這個類不應該被直接例項化。相反,任何 Normalizer 的實現都會在例項化時返回這個類的例項。
歸一化
( normalized )
引數
- normalized (
NormalizedString
) — 要應用此 Normalizer 的歸一化字串
就地歸一化一個 NormalizedString
此方法允許修改 NormalizedString
以跟蹤對齊資訊。如果你只想檢視對原始字串進行歸一化的結果,可以使用 normalize_str()
normalize_str
( sequence ) → str
歸一化給定的字串
此方法提供了一種視覺化 Normalizer 效果的方式,但它不跟蹤對齊資訊。如果需要獲取/轉換偏移量,可以使用 normalize()
Precompiled
class tokenizers.normalizers.Precompiled
( precompiled_charsmap )
預編譯歸一化器。請勿手動使用,它用於與 SentencePiece 的相容性。
Replace
class tokenizers.normalizers.Replace
( pattern content )
替換歸一化器
Sequence
class tokenizers.normalizers.Sequence
( )
引數
- normalizers (
List[Normalizer]
) — 要按順序執行的 Normalizer 列表
允許將多個其他 Normalizer 作為序列連線起來。所有歸一化器按給定順序依次執行
Strip
class tokenizers.normalizers.Strip
( left = True right = True )
Strip 歸一化器
StripAccents
class tokenizers.normalizers.StripAccents
( )
StripAccents 歸一化器
< > 在 GitHub 上更新
© . This site is unofficial and not affiliated with Hugging Face, Inc.