歸一化器

Python

Rust

Node

BertNormalizer

class tokenizers.normalizers.BertNormalizer

( clean_text = True handle_chinese_chars = True strip_accents = None lowercase = True )

引數

clean_text (bool, optional, 預設為 True) — 是否清理文字，透過移除任何控制字元並將所有空白符替換為標準空格。
handle_chinese_chars (bool, optional, 預設為 True) — 是否處理中文字元，在它們周圍新增空格。
strip_accents (bool, optional) — 是否去除所有重音符號。如果未指定此選項（即 == None），則將由 lowercase 的值決定（與原始 Bert 一致）。
lowercase (bool, optional, 預設為 True) — 是否轉換為小寫。

BertNormalizer

負責在將原始文字提供給 Bert 模型之前對其進行歸一化。這包括清理文字、處理重音、中文字元和轉換為小寫。

Lowercase

class tokenizers.normalizers.Lowercase

( )

小寫轉換歸一化器

NFC

class tokenizers.normalizers.NFC

( )

NFC Unicode 歸一化器

NFD

class tokenizers.normalizers.NFD

( )

NFD Unicode 歸一化器

NFKC

class tokenizers.normalizers.NFKC

( )

NFKC Unicode 歸一化器

NFKD

class tokenizers.normalizers.NFKD

( )

NFKD Unicode 歸一化器

Nmt

class tokenizers.normalizers.Nmt

( )

Nmt 歸一化器

Normalizer

class tokenizers.normalizers.Normalizer

( )

所有歸一化器的基類

這個類不應該被直接例項化。相反，任何 Normalizer 的實現都會在例項化時返回這個類的例項。

歸一化

( normalized )

引數

normalized (NormalizedString) — 要應用此 Normalizer 的歸一化字串

就地歸一化一個 NormalizedString

此方法允許修改 NormalizedString 以跟蹤對齊資訊。如果你只想檢視對原始字串進行歸一化的結果，可以使用 normalize_str()

normalize_str

( sequence ) → str

引數

sequence (str) — 要歸一化的字串

字串

歸一化後的字串

歸一化給定的字串

此方法提供了一種視覺化 Normalizer 效果的方式，但它不跟蹤對齊資訊。如果需要獲取/轉換偏移量，可以使用 normalize()

Precompiled

class tokenizers.normalizers.Precompiled

( precompiled_charsmap )

預編譯歸一化器。請勿手動使用，它用於與 SentencePiece 的相容性。

Replace

class tokenizers.normalizers.Replace

( pattern content )

替換歸一化器

Sequence

class tokenizers.normalizers.Sequence

( )

引數

normalizers (List[Normalizer]) — 要按順序執行的 Normalizer 列表

允許將多個其他 Normalizer 作為序列連線起來。所有歸一化器按給定順序依次執行

Strip

class tokenizers.normalizers.Strip

( left = True right = True )

Strip 歸一化器

StripAccents

class tokenizers.normalizers.StripAccents

( )

StripAccents 歸一化器

< > 在 GitHub 上更新

分詞器

歸一化器

BertNormalizer

class tokenizers.normalizers.BertNormalizer

Lowercase

class tokenizers.normalizers.Lowercase

NFC

class tokenizers.normalizers.NFC

NFD

class tokenizers.normalizers.NFD

NFKC

class tokenizers.normalizers.NFKC

NFKD

class tokenizers.normalizers.NFKD

Nmt

class tokenizers.normalizers.Nmt

Normalizer

class tokenizers.normalizers.Normalizer

歸一化

normalize_str

Precompiled

class tokenizers.normalizers.Precompiled

Replace

class tokenizers.normalizers.Replace

Sequence

class tokenizers.normalizers.Sequence

Strip

class tokenizers.normalizers.Strip

StripAccents

class tokenizers.normalizers.StripAccents