分詞器文件

歸一化器

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

歸一化器

Python
Rust
Node

BertNormalizer

class tokenizers.normalizers.BertNormalizer

( clean_text = True handle_chinese_chars = True strip_accents = None lowercase = True )

引數

  • clean_text (bool, optional, 預設為 True) — 是否清理文字,透過移除任何控制字元並將所有空白符替換為標準空格。
  • handle_chinese_chars (bool, optional, 預設為 True) — 是否處理中文字元,在它們周圍新增空格。
  • strip_accents (bool, optional) — 是否去除所有重音符號。如果未指定此選項(即 == None),則將由 lowercase 的值決定(與原始 Bert 一致)。
  • lowercase (bool, optional, 預設為 True) — 是否轉換為小寫。

BertNormalizer

負責在將原始文字提供給 Bert 模型之前對其進行歸一化。這包括清理文字、處理重音、中文字元和轉換為小寫。

Lowercase

class tokenizers.normalizers.Lowercase

( )

小寫轉換歸一化器

NFC

class tokenizers.normalizers.NFC

( )

NFC Unicode 歸一化器

NFD

class tokenizers.normalizers.NFD

( )

NFD Unicode 歸一化器

NFKC

class tokenizers.normalizers.NFKC

( )

NFKC Unicode 歸一化器

NFKD

class tokenizers.normalizers.NFKD

( )

NFKD Unicode 歸一化器

Nmt

class tokenizers.normalizers.Nmt

( )

Nmt 歸一化器

Normalizer

class tokenizers.normalizers.Normalizer

( )

所有歸一化器的基類

這個類不應該被直接例項化。相反,任何 Normalizer 的實現都會在例項化時返回這個類的例項。

歸一化

( normalized )

引數

  • normalized (NormalizedString) — 要應用此 Normalizer 的歸一化字串

就地歸一化一個 NormalizedString

此方法允許修改 NormalizedString 以跟蹤對齊資訊。如果你只想檢視對原始字串進行歸一化的結果,可以使用 normalize_str()

normalize_str

( sequence ) str

引數

  • sequence (str) — 要歸一化的字串

返回

字串

歸一化後的字串

歸一化給定的字串

此方法提供了一種視覺化 Normalizer 效果的方式,但它不跟蹤對齊資訊。如果需要獲取/轉換偏移量,可以使用 normalize()

Precompiled

class tokenizers.normalizers.Precompiled

( precompiled_charsmap )

預編譯歸一化器。請勿手動使用,它用於與 SentencePiece 的相容性。

Replace

class tokenizers.normalizers.Replace

( pattern content )

替換歸一化器

Sequence

class tokenizers.normalizers.Sequence

( )

引數

  • normalizers (List[Normalizer]) — 要按順序執行的 Normalizer 列表

允許將多個其他 Normalizer 作為序列連線起來。所有歸一化器按給定順序依次執行

Strip

class tokenizers.normalizers.Strip

( left = True right = True )

Strip 歸一化器

StripAccents

class tokenizers.normalizers.StripAccents

( )

StripAccents 歸一化器

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.