分詞器文件
訓練器
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
訓練器
Python
Rust
Node
BpeTrainer
class tokenizers.trainers.BpeTrainer
( )
引數
- vocab_size (
int
, optional) — 最終詞彙表的大小,包括所有詞元和字母表。 - min_frequency (
int
, optional) — 一個詞對被合併所需的最小頻率。 - show_progress (
bool
, optional) — 是否在訓練時顯示進度條。 - special_tokens (
List[Union[str, AddedToken]]
, optional) — 模型應知曉的特殊詞元列表。 - limit_alphabet (
int
, optional) — 字母表中保留的最大不同字元數。 - initial_alphabet (
List[str]
, optional) — 初始字母表中應包含的字元列表,即使訓練資料集中未出現。如果字串包含多個字元,則只保留第一個。 - continuing_subword_prefix (
str
, optional) — 用於每個非詞首子詞的字首。 - end_of_word_suffix (
str
, optional) — 用於每個詞尾子詞的字尾。 - max_token_length (
int
, optional) — 防止建立超過指定長度的詞元。這有助於減少詞彙表中像維基百科中的 ====== 這樣的高重複性詞元的汙染。
能夠訓練 BPE 模型的訓練器
UnigramTrainer
class tokenizers.trainers.UnigramTrainer
( vocab_size = 8000 show_progress = True special_tokens = [] shrinking_factor = 0.75 unk_token = None max_piece_length = 16 n_sub_iterations = 2 )
引數
- vocab_size (
int
) — 最終詞彙表的大小,包括所有詞元和字母表。 - show_progress (
bool
) — 是否在訓練時顯示進度條。 - special_tokens (
List[Union[str, AddedToken]]
) — 模型應知曉的特殊詞元列表。 - initial_alphabet (
List[str]
) — 初始字母表中應包含的字元列表,即使訓練資料集中未出現。如果字串包含多個字元,則只保留第一個。 - shrinking_factor (
float
) — 在訓練的每個步驟中用於修剪詞彙表的縮減因子。 - unk_token (
str
) — 用於詞彙表外(OOV)詞元的詞元。 - max_piece_length (
int
) — 給定詞元的最大長度。 - n_sub_iterations (
int
) — 在修剪詞彙表之前執行的 EM 演算法的迭代次數。
能夠訓練 Unigram 模型的訓練器
WordLevelTrainer
WordPieceTrainer
class tokenizers.trainers.WordPieceTrainer
( vocab_size = 30000 min_frequency = 0 show_progress = True special_tokens = [] limit_alphabet = None initial_alphabet = [] continuing_subword_prefix = '##' end_of_word_suffix = None )
引數
- vocab_size (
int
, optional) — 最終詞彙表的大小,包括所有詞元和字母表。 - min_frequency (
int
, optional) — 一個詞對被合併所需的最小頻率。 - show_progress (
bool
, optional) — 是否在訓練時顯示進度條。 - special_tokens (
List[Union[str, AddedToken]]
, optional) — 模型應知曉的特殊詞元列表。 - limit_alphabet (
int
, optional) — 字母表中保留的最大不同字元數。 - initial_alphabet (
List[str]
, optional) — 初始字母表中應包含的字元列表,即使訓練資料集中未出現。如果字串包含多個字元,則只保留第一個。 - continuing_subword_prefix (
str
, optional) — 用於每個非詞首子詞的字首。 - end_of_word_suffix (
str
, optional) — 用於每個詞尾子詞的字尾。
能夠訓練 WordPiece 模型的訓練器