分詞器文件

訓練器

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

訓練器

Python
Rust
Node

BpeTrainer

class tokenizers.trainers.BpeTrainer

( )

引數

  • vocab_size (int, optional) — 最終詞彙表的大小,包括所有詞元和字母表。
  • min_frequency (int, optional) — 一個詞對被合併所需的最小頻率。
  • show_progress (bool, optional) — 是否在訓練時顯示進度條。
  • special_tokens (List[Union[str, AddedToken]], optional) — 模型應知曉的特殊詞元列表。
  • limit_alphabet (int, optional) — 字母表中保留的最大不同字元數。
  • initial_alphabet (List[str], optional) — 初始字母表中應包含的字元列表,即使訓練資料集中未出現。如果字串包含多個字元,則只保留第一個。
  • continuing_subword_prefix (str, optional) — 用於每個非詞首子詞的字首。
  • end_of_word_suffix (str, optional) — 用於每個詞尾子詞的字尾。
  • max_token_length (int, optional) — 防止建立超過指定長度的詞元。這有助於減少詞彙表中像維基百科中的 ====== 這樣的高重複性詞元的汙染。

能夠訓練 BPE 模型的訓練器

UnigramTrainer

class tokenizers.trainers.UnigramTrainer

( vocab_size = 8000 show_progress = True special_tokens = [] shrinking_factor = 0.75 unk_token = None max_piece_length = 16 n_sub_iterations = 2 )

引數

  • vocab_size (int) — 最終詞彙表的大小,包括所有詞元和字母表。
  • show_progress (bool) — 是否在訓練時顯示進度條。
  • special_tokens (List[Union[str, AddedToken]]) — 模型應知曉的特殊詞元列表。
  • initial_alphabet (List[str]) — 初始字母表中應包含的字元列表,即使訓練資料集中未出現。如果字串包含多個字元,則只保留第一個。
  • shrinking_factor (float) — 在訓練的每個步驟中用於修剪詞彙表的縮減因子。
  • unk_token (str) — 用於詞彙表外(OOV)詞元的詞元。
  • max_piece_length (int) — 給定詞元的最大長度。
  • n_sub_iterations (int) — 在修剪詞彙表之前執行的 EM 演算法的迭代次數。

能夠訓練 Unigram 模型的訓練器

WordLevelTrainer

class tokenizers.trainers.WordLevelTrainer

( )

引數

  • vocab_size (int, optional) — 最終詞彙表的大小,包括所有詞元和字母表。
  • min_frequency (int, optional) — 一個詞對被合併所需的最小頻率。
  • show_progress (bool, optional) — 是否在訓練時顯示進度條。
  • special_tokens (List[Union[str, AddedToken]]) — 模型應知曉的特殊詞元列表。

能夠訓練 WorldLevel 模型的訓練器

WordPieceTrainer

class tokenizers.trainers.WordPieceTrainer

( vocab_size = 30000 min_frequency = 0 show_progress = True special_tokens = [] limit_alphabet = None initial_alphabet = [] continuing_subword_prefix = '##' end_of_word_suffix = None )

引數

  • vocab_size (int, optional) — 最終詞彙表的大小,包括所有詞元和字母表。
  • min_frequency (int, optional) — 一個詞對被合併所需的最小頻率。
  • show_progress (bool, optional) — 是否在訓練時顯示進度條。
  • special_tokens (List[Union[str, AddedToken]], optional) — 模型應知曉的特殊詞元列表。
  • limit_alphabet (int, optional) — 字母表中保留的最大不同字元數。
  • initial_alphabet (List[str], optional) — 初始字母表中應包含的字元列表,即使訓練資料集中未出現。如果字串包含多個字元,則只保留第一個。
  • continuing_subword_prefix (str, optional) — 用於每個非詞首子詞的字首。
  • end_of_word_suffix (str, optional) — 用於每個詞尾子詞的字尾。

能夠訓練 WordPiece 模型的訓練器

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.