訓練器

Python

Rust

Node

BpeTrainer

class tokenizers.trainers.BpeTrainer

( )

引數

vocab_size (int, optional) — 最終詞彙表的大小，包括所有詞元和字母表。
min_frequency (int, optional) — 一個詞對被合併所需的最小頻率。
show_progress (bool, optional) — 是否在訓練時顯示進度條。
special_tokens (List[Union[str, AddedToken]], optional) — 模型應知曉的特殊詞元列表。
limit_alphabet (int, optional) — 字母表中保留的最大不同字元數。
initial_alphabet (List[str], optional) — 初始字母表中應包含的字元列表，即使訓練資料集中未出現。如果字串包含多個字元，則只保留第一個。
continuing_subword_prefix (str, optional) — 用於每個非詞首子詞的字首。
end_of_word_suffix (str, optional) — 用於每個詞尾子詞的字尾。
max_token_length (int, optional) — 防止建立超過指定長度的詞元。這有助於減少詞彙表中像維基百科中的 ====== 這樣的高重複性詞元的汙染。

能夠訓練 BPE 模型的訓練器

UnigramTrainer

class tokenizers.trainers.UnigramTrainer

( vocab_size = 8000 show_progress = True special_tokens = [] shrinking_factor = 0.75 unk_token = None max_piece_length = 16 n_sub_iterations = 2 )

引數

vocab_size (int) — 最終詞彙表的大小，包括所有詞元和字母表。
show_progress (bool) — 是否在訓練時顯示進度條。
special_tokens (List[Union[str, AddedToken]]) — 模型應知曉的特殊詞元列表。
initial_alphabet (List[str]) — 初始字母表中應包含的字元列表，即使訓練資料集中未出現。如果字串包含多個字元，則只保留第一個。
shrinking_factor (float) — 在訓練的每個步驟中用於修剪詞彙表的縮減因子。
unk_token (str) — 用於詞彙表外（OOV）詞元的詞元。
max_piece_length (int) — 給定詞元的最大長度。
n_sub_iterations (int) — 在修剪詞彙表之前執行的 EM 演算法的迭代次數。

能夠訓練 Unigram 模型的訓練器

WordLevelTrainer

class tokenizers.trainers.WordLevelTrainer

( )

引數

vocab_size (int, optional) — 最終詞彙表的大小，包括所有詞元和字母表。
min_frequency (int, optional) — 一個詞對被合併所需的最小頻率。
show_progress (bool, optional) — 是否在訓練時顯示進度條。
special_tokens (List[Union[str, AddedToken]]) — 模型應知曉的特殊詞元列表。

能夠訓練 WorldLevel 模型的訓練器

WordPieceTrainer

class tokenizers.trainers.WordPieceTrainer

( vocab_size = 30000 min_frequency = 0 show_progress = True special_tokens = [] limit_alphabet = None initial_alphabet = [] continuing_subword_prefix = '##' end_of_word_suffix = None )

引數

vocab_size (int, optional) — 最終詞彙表的大小，包括所有詞元和字母表。
min_frequency (int, optional) — 一個詞對被合併所需的最小頻率。
show_progress (bool, optional) — 是否在訓練時顯示進度條。
special_tokens (List[Union[str, AddedToken]], optional) — 模型應知曉的特殊詞元列表。
limit_alphabet (int, optional) — 字母表中保留的最大不同字元數。
initial_alphabet (List[str], optional) — 初始字母表中應包含的字元列表，即使訓練資料集中未出現。如果字串包含多個字元，則只保留第一個。
continuing_subword_prefix (str, optional) — 用於每個非詞首子詞的字首。
end_of_word_suffix (str, optional) — 用於每個詞尾子詞的字尾。

能夠訓練 WordPiece 模型的訓練器

< > 在 GitHub 上更新

分詞器

訓練器