Transformers.js 文件
分詞器
並獲得增強的文件體驗
開始使用
分詞器
分詞器用於為模型準備文字輸入。
示例: 建立一個 AutoTokenizer
並用它來對一個句子進行分詞。這將根據 tokenizer.json
中定義的分詞器型別自動檢測分詞器型別。
import { AutoTokenizer } from '@huggingface/transformers';
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');
const { input_ids } = await tokenizer('I love transformers!');
// Tensor {
// data: BigInt64Array(6) [101n, 1045n, 2293n, 19081n, 999n, 102n],
// dims: [1, 6],
// type: 'int64',
// size: 6,
// }
- 分詞器
- 靜態
- .TokenizerModel ⇐
Callable
new TokenizerModel(config)
- 例項
.vocab
:Array.<string>
.tokens_to_ids
:Map.<string, number>
.fuse_unk
:boolean
._call(tokens)
⇒Array.<string>
.encode(tokens)
⇒Array.<string>
.convert_tokens_to_ids(tokens)
⇒Array.<number>
.convert_ids_to_tokens(ids)
⇒Array.<string>
- 靜態
.fromConfig(config, ...args)
⇒TokenizerModel
- .PreTrainedTokenizer
new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)
- 例項
.added_tokens
:Array.<AddedToken>
.added_tokens_map
:Map.<string, AddedToken>
.remove_space
:boolean
._call(text, options)
⇒BatchEncoding
._encode_text(text)
⇒Array<string>
|null
._tokenize_helper(text, options)
⇒*
.tokenize(text, options)
⇒Array.<string>
.encode(text, options)
⇒Array.<number>
.batch_decode(batch, decode_args)
⇒Array.<string>
.decode(token_ids, [decode_args])
⇒string
.decode_single(token_ids, decode_args)
⇒string
.get_chat_template(options)
⇒string
.apply_chat_template(conversation, options)
⇒string
|Tensor
|Array<number>
|Array<Array<number>>
|BatchEncoding
- 靜態
.from_pretrained(pretrained_model_name_or_path, options)
⇒Promise.<PreTrainedTokenizer>
- .BertTokenizer ⇐
PreTrainedTokenizer
- .AlbertTokenizer ⇐
PreTrainedTokenizer
- .NllbTokenizer
- .M2M100Tokenizer
- .WhisperTokenizer ⇐
PreTrainedTokenizer
- .MarianTokenizer
- .AutoTokenizer
new AutoTokenizer()
.from_pretrained(pretrained_model_name_or_path, options)
⇒Promise.<PreTrainedTokenizer>
.is_chinese_char(cp)
⇒boolean
- .TokenizerModel ⇐
- 內部
- ~AddedToken
- ~WordPieceTokenizer ⇐
TokenizerModel
new WordPieceTokenizer(config)
.tokens_to_ids
:Map.<string, number>
.unk_token_id
:number
.unk_token
:string
.max_input_chars_per_word
:number
.vocab
:Array.<string>
.encode(tokens)
⇒Array.<string>
- ~Unigram ⇐
TokenizerModel
new Unigram(config, moreConfig)
.scores
:Array.<number>
.populateNodes(lattice)
.tokenize(normalized)
⇒Array.<string>
.encode(tokens)
⇒Array.<string>
- ~BPE ⇐
TokenizerModel
new BPE(config)
.tokens_to_ids
:Map.<string, number>
.merges
:*
.config.merges
:*
.max_length_to_cache
.cache_capacity
.clear_cache()
.bpe(token)
⇒Array.<string>
.encode(tokens)
⇒Array.<string>
- ~LegacyTokenizerModel
new LegacyTokenizerModel(config, moreConfig)
.tokens_to_ids
:Map.<string, number>
- ~Normalizer
new Normalizer(config)
- 例項
.normalize(text)
⇒string
._call(text)
⇒string
- 靜態
.fromConfig(config)
⇒Normalizer
- ~Replace ⇐
Normalizer
.normalize(text)
⇒string
- ~UnicodeNormalizer ⇐
Normalizer
.form
:string
.normalize(text)
⇒string
- ~NFC ⇐
UnicodeNormalizer
- ~NFD ⇐
UnicodeNormalizer
- ~NFKC ⇐
UnicodeNormalizer
- ~NFKD ⇐
UnicodeNormalizer
- ~StripNormalizer
.normalize(text)
⇒string
- ~StripAccents ⇐
Normalizer
.normalize(text)
⇒string
- ~Lowercase ⇐
Normalizer
.normalize(text)
⇒string
- ~Prepend ⇐
Normalizer
.normalize(text)
⇒string
- ~NormalizerSequence ⇐
Normalizer
- ~BertNormalizer ⇐
Normalizer
._tokenize_chinese_chars(text)
⇒string
.stripAccents(text)
⇒string
.normalize(text)
⇒string
- ~PreTokenizer ⇐
Callable
- 例項
.pre_tokenize_text(text, [options])
⇒Array.<string>
.pre_tokenize(text, [options])
⇒Array.<string>
._call(text, [options])
⇒Array.<string>
- 靜態
.fromConfig(config)
⇒PreTokenizer
- 例項
- ~BertPreTokenizer ⇐
PreTokenizer
new BertPreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~ByteLevelPreTokenizer ⇐
PreTokenizer
new ByteLevelPreTokenizer(config)
.add_prefix_space
:boolean
.trim_offsets
:boolean
.use_regex
:boolean
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~SplitPreTokenizer ⇐
PreTokenizer
new SplitPreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~PunctuationPreTokenizer ⇐
PreTokenizer
new PunctuationPreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~DigitsPreTokenizer ⇐
PreTokenizer
new DigitsPreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~PostProcessor ⇐
Callable
new PostProcessor(config)
- 例項
.post_process(tokens, ...args)
⇒PostProcessedOutput
._call(tokens, ...args)
⇒PostProcessedOutput
- 靜態
.fromConfig(config)
⇒PostProcessor
- ~BertProcessing
new BertProcessing(config)
.post_process(tokens, [tokens_pair])
⇒PostProcessedOutput
- ~TemplateProcessing ⇐
PostProcessor
new TemplateProcessing(config)
.post_process(tokens, [tokens_pair])
⇒PostProcessedOutput
- ~ByteLevelPostProcessor ⇐
PostProcessor
.post_process(tokens, [tokens_pair])
⇒PostProcessedOutput
- ~PostProcessorSequence
new PostProcessorSequence(config)
.post_process(tokens, [tokens_pair])
⇒PostProcessedOutput
- ~Decoder ⇐
Callable
new Decoder(config)
- 例項
.added_tokens
:Array.<AddedToken>
._call(tokens)
⇒string
.decode(tokens)
⇒string
.decode_chain(tokens)
⇒Array.<string>
- 靜態
.fromConfig(config)
⇒Decoder
- ~FuseDecoder
.decode_chain()
:*
- ~WordPieceDecoder ⇐
Decoder
- ~ByteLevelDecoder ⇐
Decoder
- ~CTCDecoder
.convert_tokens_to_string(tokens)
⇒string
.decode_chain()
:*
- ~DecoderSequence ⇐
Decoder
- ~MetaspacePreTokenizer ⇐
PreTokenizer
new MetaspacePreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~MetaspaceDecoder ⇐
Decoder
- ~Precompiled ⇐
Normalizer
new Precompiled(config)
.normalize(text)
⇒string
- ~PreTokenizerSequence ⇐
PreTokenizer
new PreTokenizerSequence(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~WhitespacePreTokenizer
new WhitespacePreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~WhitespaceSplit ⇐
PreTokenizer
new WhitespaceSplit(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
- ~ReplacePreTokenizer
new ReplacePreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
~BYTES_TO_UNICODE
⇒Object
~loadTokenizer(pretrained_model_name_or_path, options)
⇒Promise.<Array<any>>
~regexSplit(text, regex)
⇒Array.<string>
~createPattern(pattern, invert)
⇒RegExp
|null
~objectToMap(obj)
⇒Map.<string, any>
~prepareTensorForDecode(tensor)
⇒Array.<number>
~clean_up_tokenization(text)
⇒string
~remove_accents(text)
⇒string
~lowercase_and_remove_accent(text)
⇒string
~whitespace_split(text)
⇒Array.<string>
~PretrainedTokenizerOptions
:Object
~BPENode
:Object
~SplitDelimiterBehavior
:’removed’
|’isolated’
|’mergedWithPrevious’
|’mergedWithNext’
|’contiguous’
~PostProcessedOutput
:Object
~EncodingSingle
:Object
~Message
:Object
~BatchEncoding
:Array<number>
|Array<Array<number>>
|Tensor
- 靜態
tokenizers.TokenizerModel ⇐ <code> Callable </code>
分詞器模型的抽象基類。
型別: tokenizers
的靜態類
繼承自: Callable
- .TokenizerModel ⇐
Callable
new TokenizerModel(config)
- 例項
.vocab
:Array.<string>
.tokens_to_ids
:Map.<string, number>
.fuse_unk
:boolean
._call(tokens)
⇒Array.<string>
.encode(tokens)
⇒Array.<string>
.convert_tokens_to_ids(tokens)
⇒Array.<number>
.convert_ids_to_tokens(ids)
⇒Array.<string>
- 靜態
.fromConfig(config, ...args)
⇒TokenizerModel
new TokenizerModel(config)
建立一個新的 TokenizerModel 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | TokenizerModel 的配置物件。 |
tokenizerModel.vocab : <code> Array. < string > </code>
型別: TokenizerModel
的例項屬性
tokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>
詞元到 ID 的對映。
型別: TokenizerModel
的例項屬性
tokenizerModel.fuse_unk : <code> boolean </code>
編碼時是否合併未知詞元。預設為 false。
型別: TokenizerModel
的例項屬性
tokenizerModel._call(tokens) ⇒ <code> Array. < string > </code>
呼叫 TokenizerModel 例項的內部函式。
型別: TokenizerModel
的例項方法
重寫: _call
返回: Array.<string>
- 編碼後的詞元。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 要編碼的詞元。 |
tokenizerModel.encode(tokens) ⇒ <code> Array. < string > </code>
將詞元列表編碼為詞元 ID 列表。
型別: TokenizerModel
的例項方法
返回: Array.<string>
- 編碼後的詞元。
丟擲:
- 如果在子類中未實現,則會丟擲錯誤。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 要編碼的詞元。 |
tokenizerModel.convert_tokens_to_ids(tokens) ⇒ <code> Array. < number > </code>
將詞元列表轉換為詞元 ID 列表。
型別: TokenizerModel
的例項方法
返回: Array.<number>
- 轉換後的詞元 ID。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 要轉換的詞元。 |
tokenizerModel.convert_ids_to_tokens(ids) ⇒ <code> Array. < string > </code>
將詞元 ID 列表轉換為詞元列表。
型別: TokenizerModel
的例項方法
返回: Array.<string>
- 轉換後的詞元。
引數量 | 型別 | 描述 |
---|---|---|
ids | Array<number> | Array<bigint> | 要轉換的詞元 ID。 |
TokenizerModel.fromConfig(config, ...args) ⇒ <code> TokenizerModel </code>
根據提供的配置物件例項化一個新的 TokenizerModel 例項。
型別: TokenizerModel
的靜態方法
返回: TokenizerModel
- 一個新的 TokenizerModel 例項。
丟擲:
- 如果配置中的 TokenizerModel 型別未被識別,將丟擲錯誤。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | TokenizerModel 的配置物件。 |
...args | * | 傳遞給特定 TokenizerModel 建構函式的可選引數。 |
tokenizers.PreTrainedTokenizer
型別: tokenizers
的靜態類
- .PreTrainedTokenizer
new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)
- 例項
.added_tokens
:Array.<AddedToken>
.added_tokens_map
:Map.<string, AddedToken>
.remove_space
:boolean
._call(text, options)
⇒BatchEncoding
._encode_text(text)
⇒Array<string>
|null
._tokenize_helper(text, options)
⇒*
.tokenize(text, options)
⇒Array.<string>
.encode(text, options)
⇒Array.<number>
.batch_decode(batch, decode_args)
⇒Array.<string>
.decode(token_ids, [decode_args])
⇒string
.decode_single(token_ids, decode_args)
⇒string
.get_chat_template(options)
⇒string
.apply_chat_template(conversation, options)
⇒string
|Tensor
|Array<number>
|Array<Array<number>>
|BatchEncoding
- 靜態
.from_pretrained(pretrained_model_name_or_path, options)
⇒Promise.<PreTrainedTokenizer>
new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)
建立一個新的 PreTrainedTokenizer 例項。
引數量 | 型別 | 描述 |
---|---|---|
tokenizerJSON | Object | 分詞器的 JSON。 |
tokenizerConfig | Object | 分詞器的配置。 |
preTrainedTokenizer.added_tokens : <code> Array. < AddedToken > </code>
型別: PreTrainedTokenizer
的例項屬性
preTrainedTokenizer.added_tokens_map : <code> Map. < string, AddedToken > </code>
型別: PreTrainedTokenizer
的例項屬性
preTrainedTokenizer.remove_space : <code> boolean </code>
是否在分詞時去除文字(移除字串前後多餘的空格)。
型別: PreTrainedTokenizer
的例項屬性
preTrainedTokenizer._call(text, options) ⇒ <code> BatchEncoding </code>
編碼/分詞給定的文字。
型別: PreTrainedTokenizer
的例項方法
返回: BatchEncoding
- 傳遞給模型的物件。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
text | string | Array<string> | 要分詞的文字。 | |
選項 | Object | 一個可選物件,包含以下屬性 | |
[options.text_pair] | string | Array<string> | null | 要編碼的可選第二個序列。如果設定,必須與文字型別相同。 |
[options.padding] | boolean | 'max_length' | false | 是否填充輸入序列。 |
[options.add_special_tokens] | boolean | true | 是否新增與相應模型相關的特殊詞元。 |
[options.truncation] | boolean |
| 是否截斷輸入序列。 |
[options.max_length] | 數字 |
| 返回列表的最大長度,以及可選的填充長度。 |
[options.return_tensor] | boolean | true | 是否以張量或陣列形式返回結果。 |
[options.return_token_type_ids] | boolean |
| 是否返回詞元型別 ID。 |
preTrainedTokenizer._encode_text(text) ⇒ <code> Array < string > </code> | <code> null </code>
使用分詞器的預處理器流水線編碼單個文字。
型別: PreTrainedTokenizer
的例項方法
返回: Array<string>
| null
- 編碼後的詞元。
引數量 | 型別 | 描述 |
---|---|---|
text | string | null | 要編碼的文字。 |
preTrainedTokenizer._tokenize_helper(text, options) ⇒ <code> * </code>
用於分詞一個文字以及可選的文字對的內部輔助函式。
型別: PreTrainedTokenizer
的例項方法
返回: *
- 一個包含詞元和可選的詞元型別 ID 的物件。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
text | 字串 | 要分詞的文字。 | |
選項 | Object | 一個可選物件,包含以下屬性 | |
[options.pair] | 字串 | null | 要分詞的可選第二個文字。 |
[options.add_special_tokens] | boolean | false | 是否新增與相應模型相關的特殊詞元。 |
preTrainedTokenizer.tokenize(text, options) ⇒ <code> Array. < string > </code>
將字串轉換為詞元序列。
型別: PreTrainedTokenizer
的例項方法
返回: Array.<string>
- 詞元列表。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
text | 字串 | 要編碼的序列。 | |
選項 | Object | 一個可選物件,包含以下屬性 | |
[options.pair] | 字串 | 與第一個序列一起編碼的第二個序列。 | |
[options.add_special_tokens] | boolean | false | 是否新增與相應模型相關的特殊詞元。 |
preTrainedTokenizer.encode(text, options) ⇒ <code> Array. < number > </code>
使用模型的tokenizer編碼單個文字或文字對。
型別: PreTrainedTokenizer
的例項方法
返回: Array.<number>
- 表示編碼後文本的詞元 ID 陣列。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
text | 字串 | 要編碼的文字。 | |
選項 | Object | 一個可選物件,包含以下屬性 | |
[options.text_pair] | 字串 | null | 要編碼的可選第二個文字。 |
[options.add_special_tokens] | boolean | true | 是否新增與相應模型相關的特殊詞元。 |
[options.return_token_type_ids] | boolean |
| 是否返回 token_type_ids。 |
preTrainedTokenizer.batch_decode(batch, decode_args) ⇒ <code> Array. < string > </code>
解碼一批分詞後的序列。
型別: PreTrainedTokenizer
的例項方法
返回: Array.<string>
- 解碼後的序列列表。
引數量 | 型別 | 描述 |
---|---|---|
batch | Array<Array<number>> | Tensor | 分詞後的輸入序列的列表/張量。 |
decode_args | Object | (可選) 包含解碼引數的物件。 |
preTrainedTokenizer.decode(token_ids, [decode_args]) ⇒ <code> string </code>
將詞元 ID 序列解碼回字符串。
型別: PreTrainedTokenizer
的例項方法
返回: string
- 解碼後的字串。
丟擲:
Error
如果 `token_ids` 不是一個非空的整數陣列。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
token_ids | Array<number> | Array<bigint> | Tensor | 要解碼的詞元 ID 列表/張量。 | |
[decode_args] | Object | {} | |
[decode_args.skip_special_tokens] | boolean | false | 如果為 true,則從輸出字串中移除特殊詞元。 |
[decode_args.clean_up_tokenization_spaces] | boolean | true | 如果為 true,則移除標點符號前和縮寫形式前的空格。 |
preTrainedTokenizer.decode_single(token_ids, decode_args) ⇒ <code> string </code>
將單個詞元 ID 列表解碼為字串。
型別: PreTrainedTokenizer
的例項方法
返回: string
- 解碼後的字串
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
token_ids | Array<number> | Array<bigint> | 要解碼的詞元 ID 列表 | |
decode_args | Object | 解碼的可選引數 | |
[decode_args.skip_special_tokens] | boolean | false | 解碼時是否跳過特殊詞元 |
[decode_args.clean_up_tokenization_spaces] | boolean |
| 解碼時是否清理分詞空格。如果為 null,該值將設定為 |
preTrainedTokenizer.get_chat_template(options) ⇒ <code> string </code>
檢索用於分詞聊天訊息的聊天模板字串。此模板由 apply_chat_template
方法在內部使用,也可用於外部檢索模型的聊天模板,以更好地跟蹤生成過程。
型別: PreTrainedTokenizer
的例項方法
返回: string
- 聊天模板字串。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
選項 | Object | 一個可選物件,包含以下屬性 | |
[options.chat_template] | 字串 | null | 用於此轉換的 Jinja 模板或模板名稱。通常不需要傳遞任何內容給此引數,因為預設會使用模型的模板。 |
[options.tools] | Array.<Object> |
| 模型可訪問的工具(可呼叫函式)列表。如果模板不支援函式呼叫,此引數將無效。每個工具應以 JSON Schema 形式傳遞,提供工具的名稱、描述和引數型別。更多資訊請參閱我們的聊天模板指南。 |
preTrainedTokenizer.apply_chat_template(conversation, options) ⇒ <code> string </code> | <code> Tensor </code> | <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> BatchEncoding </code>
將包含 "role"
和 "content"
鍵的訊息物件列表轉換為詞元 ID 列表。此方法旨在與聊天模型一起使用,並將讀取分詞器的 chat_template 屬性以確定轉換時使用的格式和控制詞元。
有關更多資訊,請參閱此處。
示例: 將聊天模板應用於對話。
import { AutoTokenizer } from "@huggingface/transformers";
const tokenizer = await AutoTokenizer.from_pretrained("Xenova/mistral-tokenizer-v1");
const chat = [
{ "role": "user", "content": "Hello, how are you?" },
{ "role": "assistant", "content": "I'm doing great. How can I help you today?" },
{ "role": "user", "content": "I'd like to show off how chat templating works!" },
]
const text = tokenizer.apply_chat_template(chat, { tokenize: false });
// "<s>[INST] Hello, how are you? [/INST]I'm doing great. How can I help you today?</s> [INST] I'd like to show off how chat templating works! [/INST]"
const input_ids = tokenizer.apply_chat_template(chat, { tokenize: true, return_tensor: false });
// [1, 733, 16289, 28793, 22557, 28725, 910, 460, 368, 28804, 733, 28748, 16289, 28793, 28737, 28742, 28719, 2548, 1598, 28723, 1602, 541, 315, 1316, 368, 3154, 28804, 2, 28705, 733, 16289, 28793, 315, 28742, 28715, 737, 298, 1347, 805, 910, 10706, 5752, 1077, 3791, 28808, 733, 28748, 16289, 28793]
型別: PreTrainedTokenizer
的例項方法
返回: string
| Tensor
| Array<number>
| Array<Array<number>>
| BatchEncoding
- 分詞後的輸出。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
conversation | Array.<Message> | 一個包含 | |
選項 | Object | 一個可選物件,包含以下屬性 | |
[options.chat_template] | 字串 | null | 用於此轉換的 Jinja 模板。如果未傳遞此引數,則將使用模型的聊天模板。 |
[options.tools] | Array.<Object> |
| 模型可訪問的工具(可呼叫函式)列表。如果模板不支援函式呼叫,此引數將無效。每個工具應以 JSON Schema 形式傳遞,提供工具的名稱、描述和引數型別。更多資訊請參閱我們的聊天模板指南。 |
[options.documents] | * |
| 表示文件的字典列表,如果模型正在執行 RAG(檢索增強生成),這些文件將對模型可用。如果模板不支援 RAG,此引數將無效。我們建議每個文件都是一個包含 "title" 和 "text" 鍵的字典。有關使用聊天模板傳遞文件的示例,請參閱聊天模板指南的 RAG 部分。 |
[options.add_generation_prompt] | boolean | false | 是否用表示助手訊息開始的詞元結束提示。當您想從模型生成響應時,這很有用。請注意,此引數將傳遞給聊天模板,因此模板必須支援此引數才能生效。 |
[options.tokenize] | boolean | true | 是否對輸出進行分詞。如果為 false,輸出將是字串。 |
[options.padding] | boolean | false | 是否將序列填充到最大長度。如果 tokenize 為 false,則無效。 |
[options.truncation] | boolean | false | 是否將序列截斷到最大長度。如果 tokenize 為 false,則無效。 |
[options.max_length] | 數字 |
| 用於填充或截斷的最大長度(以詞元為單位)。如果 tokenize 為 false,則無效。如果未指定,將使用分詞器的 |
[options.return_tensor] | boolean | true | 是否以 Tensor 或 Array 的形式返回輸出。如果 tokenize 為 false,則無效。 |
[options.return_dict] | boolean | true | 是否返回帶有命名輸出的字典。如果 tokenize 為 false,則無效。 |
[options.tokenizer_kwargs] | Object | {} | 傳遞給分詞器的其他選項。 |
PreTrainedTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>
從給定的 pretrained_model_name_or_path
載入預訓練的分詞器。
型別: PreTrainedTokenizer
的靜態方法
返回: Promise.<PreTrainedTokenizer>
- PreTrainedTokenizer
類的新例項。
丟擲:
Error
如果在 `pretrained_model_name_or_path` 中找不到 tokenizer.json 或 tokenizer_config.json 檔案,則丟擲錯誤。
引數量 | 型別 | 描述 |
---|---|---|
pretrained_model_name_or_path | 字串 | 預訓練分詞器的路徑。 |
選項 | PretrainedTokenizerOptions | 載入分詞器的其他選項。 |
tokenizers.BertTokenizer ⇐ <code> PreTrainedTokenizer </code>
BertTokenizer 是一個用於為 BERT 模型分詞文字的類。
型別: tokenizers
的靜態類
繼承自: PreTrainedTokenizer
tokenizers.AlbertTokenizer ⇐ <code> PreTrainedTokenizer </code>
Albert 分詞器
型別: tokenizers
的靜態類
繼承自: PreTrainedTokenizer
tokenizers.NllbTokenizer
NllbTokenizer 類用於為 NLLB(“不讓任何語言掉隊”)模型進行文字分詞。
“不讓任何語言掉隊”(NLLB)是一個首創的、AI 突破性專案,它開源了能夠直接在 200 多種語言對之間提供高質量翻譯的模型——包括阿斯圖里亞斯語、盧幹達語、烏爾都語等低資源語言。它旨在幫助人們與任何人、在任何地方進行交流,無論他們的語言偏好如何。更多資訊,請檢視他們的論文。
有關支援的語言列表(及其語言程式碼),
型別: tokenizers
的靜態類
請參閱: https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200
nllbTokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>
為 NllbTokenizer
構建翻譯輸入的輔助函式。
型別: NllbTokenizer
的例項方法
返回: Object
- 傳遞給模型的物件。
引數量 | 型別 | 描述 |
---|---|---|
raw_inputs | string | Array<string> | 要分詞的文字。 |
tokenizer_options | Object | 傳送給分詞器的選項 |
generate_kwargs | Object | 生成選項。 |
tokenizers.M2M100Tokenizer
M2M100Tokenizer 類用於為 M2M100(“多對多”)模型進行文字分詞。
M2M100 是一個多語言編碼器-解碼器(seq-to-seq)模型,為多對多(Many-to-Many)多語言翻譯任務而訓練。它在這篇論文中被提出,並首次在這個程式碼庫中釋出。
有關支援的語言列表(及其語言程式碼),
型別: tokenizers
的靜態類
另見: https://huggingface.co/facebook/m2m100_418M#languages-covered
m2M100Tokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>
用於為 M2M100Tokenizer
構建翻譯輸入的輔助函式。
型別: M2M100Tokenizer
的例項方法
返回: Object
- 傳遞給模型的物件。
引數量 | 型別 | 描述 |
---|---|---|
raw_inputs | string | Array<string> | 要分詞的文字。 |
tokenizer_options | Object | 傳送給分詞器的選項 |
generate_kwargs | Object | 生成選項。 |
tokenizers.WhisperTokenizer ⇐ <code> PreTrainedTokenizer </code>
WhisperTokenizer 分詞器
型別: tokenizers
的靜態類
繼承自: PreTrainedTokenizer
- .WhisperTokenizer ⇐
PreTrainedTokenizer
whisperTokenizer._decode_asr(sequences, options) ⇒ <code> * </code>
解碼自動語音識別(ASR)序列。
型別: WhisperTokenizer
的例項方法
返回: *
- 解碼後的序列。
引數量 | 型別 | 描述 |
---|---|---|
sequences | * | 要解碼的序列。 |
選項 | Object | 用於解碼的選項。 |
whisperTokenizer.decode() : <code> * </code>
型別: WhisperTokenizer
的例項方法
tokenizers.MarianTokenizer
型別: tokenizers
的靜態類
待辦
- 此模型尚不受 Hugging Face 的“fast”分詞器庫(https://github.com/huggingface/tokenizers)支援。因此,此實現(基於 fast tokenizers)可能會產生輕微不準確的結果。
new MarianTokenizer(tokenizerJSON, tokenizerConfig)
建立一個新的 MarianTokenizer 例項。
引數量 | 型別 | 描述 |
---|---|---|
tokenizerJSON | Object | 分詞器的 JSON。 |
tokenizerConfig | Object | 分詞器的配置。 |
marianTokenizer._encode_text(text) ⇒ <code> Array </code>
編碼單個文字。必須重寫此方法,因為在使用 sentencepiece 模型編碼之前,必須移除語言程式碼。
型別: MarianTokenizer
的例項方法
返回: Array
- 編碼後的詞元。
另見: https://github.com/huggingface/transformers/blob/12d51db243a00726a548a43cc333390ebae731e3/src/transformers/models/marian/tokenization_marian.py#L204-L213
引數量 | 型別 | 描述 |
---|---|---|
text | string | null | 要編碼的文字。 |
tokenizers.AutoTokenizer
這是一個輔助類,用於透過 from_pretrained
函式例項化預訓練的分詞器。所選擇的分詞器類由分詞器配置中指定的型別決定。
型別: tokenizers
的靜態類
- .AutoTokenizer
new AutoTokenizer()
.from_pretrained(pretrained_model_name_or_path, options)
⇒Promise.<PreTrainedTokenizer>
new AutoTokenizer()
示例
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');
AutoTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>
從一個預訓練模型例項化庫中的一個分詞器類。
要例項化的分詞器類是根據配置物件(作為引數傳入或從 pretrained_model_name_or_path
載入)的 tokenizer_class
屬性來選擇的。
型別: AutoTokenizer
的靜態方法
返回: Promise.<PreTrainedTokenizer>
- PreTrainedTokenizer 類的一個新例項。
引數量 | 型別 | 描述 |
---|---|---|
pretrained_model_name_or_path | 字串 | 預訓練模型的名稱或路徑。可以是
|
選項 | PretrainedTokenizerOptions | 載入分詞器的其他選項。 |
tokenizers.is_chinese_char(cp) ⇒ <code> boolean </code>
檢查給定的 Unicode 碼點是否表示一個 CJK(中文、日文或韓文)字元。
“中文字元”被定義為 CJK Unicode 區塊中的任何字元:https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block)
請注意,儘管其名稱如此,CJK Unicode 區塊並不包含所有的日文和韓文字元。現代韓文的諺文字母位於一個不同的區塊,日文的平假名和片假名也是如此。這些字母表用於書寫以空格分隔的單詞,因此它們不被特殊處理,而是像所有其他語言一樣處理。
型別: tokenizers
的靜態方法
返回: boolean
- 如果碼點表示一個 CJK 字元,則為 True,否則為 false。
引數量 | 型別 | 描述 |
---|---|---|
cp | number | bigint | 要檢查的 Unicode 碼點。 |
tokenizers~AddedToken
表示使用者在現有模型詞彙表之上新增的詞元。可以配置 AddedToken 以指定它們在各種情況下的行為,例如
- 它們是否應僅匹配單個單詞
- 是否包含其左側或右側的任何空白
型別: tokenizers
的內部類
new AddedToken(config)
建立一個新的 AddedToken 例項。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
config | Object | 新增的詞元的配置物件。 | |
config.content | 字串 | 新增的詞元的內容。 | |
config.id | 數字 | 新增的詞元的 ID。 | |
[config.single_word] | boolean | false | 此詞元是否必須是單個單詞,或者可以拆分單詞。 |
[config.lstrip] | boolean | false | 此詞元是否應去除其左側的空白。 |
[config.rstrip] | boolean | false | 此詞元是否應去除其右側的空白。 |
[config.normalized] | boolean | false | 此詞元是否應被歸一化。 |
[config.special] | boolean | false | 此詞元是否是特殊詞元。 |
tokenizers~WordPieceTokenizer ⇐ <code> TokenizerModel </code>
TokenizerModel 的一個子類,它使用 WordPiece 編碼來編碼詞元。
型別: tokenizers
的內部類
繼承自: TokenizerModel
- ~WordPieceTokenizer ⇐
TokenizerModel
new WordPieceTokenizer(config)
.tokens_to_ids
:Map.<string, number>
.unk_token_id
:number
.unk_token
:string
.max_input_chars_per_word
:number
.vocab
:Array.<string>
.encode(tokens)
⇒Array.<string>
new WordPieceTokenizer(config)
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
config | Object | 配置物件。 | |
config.vocab | Object | 詞元到 ID 的對映。 | |
config.unk_token | 字串 | 未知詞元字串。 | |
config.continuing_subword_prefix | 字串 | 用於連續子詞的字首。 | |
[config.max_input_chars_per_word] | 數字 | 100 | 每個單詞的最大字元數。 |
wordPieceTokenizer.tokens_to_ids : <code> Map. < string, number > </code>
詞元到 ID 的對映。
型別: WordPieceTokenizer
的例項屬性
wordPieceTokenizer.unk_token_id : <code> number </code>
未知詞元的 ID。
型別: WordPieceTokenizer
的例項屬性
wordPieceTokenizer.unk_token : <code> string </code>
未知詞元字串。
型別: WordPieceTokenizer
的例項屬性
wordPieceTokenizer.max_input_chars_per_word : <code> number </code>
每個單詞允許的最大字元數。
型別: WordPieceTokenizer
的例項屬性
wordPieceTokenizer.vocab : <code> Array. < string > </code>
一個詞元陣列。
型別: WordPieceTokenizer
的例項屬性
wordPieceTokenizer.encode(tokens) ⇒ <code> Array. < string > </code>
使用 WordPiece 編碼對一個詞元陣列進行編碼。
型別: WordPieceTokenizer
的例項方法
返回: Array.<string>
- 一個編碼後的詞元陣列。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 要編碼的詞元。 |
tokenizers~Unigram ⇐ <code> TokenizerModel </code>
代表 Unigram 分詞器模型的類。
型別: tokenizers
的內部類
繼承自: TokenizerModel
- ~Unigram ⇐
TokenizerModel
new Unigram(config, moreConfig)
.scores
:Array.<number>
.populateNodes(lattice)
.tokenize(normalized)
⇒Array.<string>
.encode(tokens)
⇒Array.<string>
new Unigram(config, moreConfig)
建立一個新的 Unigram 分詞器模型。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | Unigram 模型的配置物件。 |
config.unk_id | 數字 | 未知詞元的 ID |
config.vocab | * | 一個表示詞元到分數對映的二維陣列。 |
moreConfig | Object | Unigram 模型的附加配置物件。 |
unigram.scores : <code> Array. < number > </code>
型別: Unigram
的例項屬性
unigram.populateNodes(lattice)
填充晶格節點。
型別: Unigram
的例項方法
引數量 | 型別 | 描述 |
---|---|---|
lattice | TokenLattice | 要用節點填充的詞元晶格。 |
unigram.tokenize(normalized) ⇒ <code> Array. < string > </code>
使用 unigram 模型將詞元陣列編碼為子詞元陣列。
型別: Unigram
的例項方法
返回: Array.<string>
- 使用 unigram 模型對輸入詞元進行編碼後得到的子詞元陣列。
引數量 | 型別 | 描述 |
---|---|---|
normalized | 字串 | 歸一化後的字串。 |
unigram.encode(tokens) ⇒ <code> Array. < string > </code>
使用 Unigram 編碼對一個詞元陣列進行編碼。
型別: Unigram
的例項方法
返回: Array.<string>
- 一個編碼後的詞元陣列。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 要編碼的詞元。 |
tokenizers~BPE ⇐ <code> TokenizerModel </code>
用於將文字編碼為位元組對編碼(BPE)詞元的 BPE 類。
型別: tokenizers
的內部類
繼承自: TokenizerModel
- ~BPE ⇐
TokenizerModel
new BPE(config)
.tokens_to_ids
:Map.<string, number>
.merges
:*
.config.merges
:*
.max_length_to_cache
.cache_capacity
.clear_cache()
.bpe(token)
⇒Array.<string>
.encode(tokens)
⇒Array.<string>
new BPE(config)
建立一個 BPE 例項。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
config | Object | BPE 的配置物件。 | |
config.vocab | Object | 詞元到 ID 的對映。 | |
config.merges | * | 一個由字串表示的 BPE 合併規則陣列。 | |
config.unk_token | 字串 | 用於詞彙表外單詞的未知詞元。 | |
config.end_of_word_suffix | 字串 | 在每個單詞末尾放置的字尾。 | |
[config.continuing_subword_suffix] | 字串 | 在單詞之間插入的字尾。 | |
[config.byte_fallback] | boolean | false | 是否使用 spm 的位元組回退技巧(預設為 False) |
[config.ignore_merges] | boolean | false | 在使用合併規則之前,是否先將詞元與詞彙表進行匹配。 |
bpE.tokens_to_ids : <code> Map. < string, number > </code>
型別: BPE
的例項屬性
bpE.merges : <code> * </code>
型別: BPE
的例項屬性
merges.config.merges : <code> * </code>
型別: merges
的靜態屬性
bpE.max_length_to_cache
模型中應快取的最大長度。太長的字串快取命中的機會很小。
型別: BPE
的例項屬性
bpE.cache_capacity
BPE
內部快取的預設容量。
型別: BPE
的例項屬性
bpE.clear_cache()
清除快取。
型別: BPE
的例項方法
bpE.bpe(token) ⇒ <code> Array. < string > </code>
對給定的詞元應用位元組對編碼(BPE)。高效的基於堆的優先佇列實現改編自 https://github.com/belladoreai/llama-tokenizer-js。
型別: BPE
的例項方法
返回: Array.<string>
- BPE 編碼後的詞元。
引數量 | 型別 | 描述 |
---|---|---|
token | 字串 | 要編碼的詞元。 |
bpE.encode(tokens) ⇒ <code> Array. < string > </code>
使用 BPE 演算法對輸入的詞元序列進行編碼,並返回生成的子詞詞元。
型別: BPE
的例項方法
返回: Array.<string>
- 對輸入詞元序列應用 BPE 演算法後得到的子詞詞元。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 要編碼的輸入詞元序列。 |
tokenizers~LegacyTokenizerModel
用於僅有詞彙表的分詞器的傳統分詞器類。
型別: tokenizers
的內部類
- ~LegacyTokenizerModel
new LegacyTokenizerModel(config, moreConfig)
.tokens_to_ids
:Map.<string, number>
new LegacyTokenizerModel(config, moreConfig)
建立一個 LegacyTokenizerModel 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | LegacyTokenizerModel 的配置物件。 |
config.vocab | Object | 一個(可能是巢狀的)詞元到 ID 的對映。 |
moreConfig | Object | LegacyTokenizerModel 模型的附加配置物件。 |
legacyTokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>
型別: LegacyTokenizerModel
的例項屬性
tokenizers~Normalizer
文字歸一化的基類。
型別: tokenizers
的內部抽象類
- ~Normalizer
new Normalizer(config)
- 例項
.normalize(text)
⇒string
._call(text)
⇒string
- 靜態
.fromConfig(config)
⇒Normalizer
new Normalizer(config)
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 歸一化器的配置物件。 |
normalizer.normalize(text) ⇒ <code> string </code>
歸一化輸入文字。
型別: Normalizer
的例項抽象方法
返回: string
- 歸一化後的文字。
丟擲:
Error
如果此方法未在子類中實現。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的文字。 |
normalizer._call(text) ⇒ <code> string </code>
Normalizer#normalize 的別名。
型別: Normalizer
的例項方法
返回: string
- 歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的文字。 |
Normalizer.fromConfig(config) ⇒ <code> Normalizer </code>
用於從配置物件建立歸一化器的工廠方法。
型別: Normalizer
的靜態方法
返回: Normalizer
- 一個歸一化器物件。
丟擲:
Error
如果在配置中指定了未知的歸一化器型別。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 歸一化器的配置物件。 |
tokenizers~Replace ⇐ <code> Normalizer </code>
將模式的出現替換為給定字串或正則表示式的替換歸一化器。
型別: tokenizers
的內部類
繼承自: Normalizer
replace.normalize(text) ⇒ <code> string </code>
透過將模式替換為內容來歸一化輸入文字。
型別: Replace
的例項方法
返回: string
- 將模式替換為內容後歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的輸入文字。 |
tokenizers~UnicodeNormalizer ⇐ <code> Normalizer </code>
對輸入文字應用 Unicode 歸一化的歸一化器。
型別: tokenizers
的內部抽象類
繼承自: Normalizer
- ~UnicodeNormalizer ⇐
Normalizer
.form
:string
.normalize(text)
⇒string
unicodeNormalizer.form : <code> string </code>
要應用的 Unicode 歸一化形式。應為以下之一:'NFC'、'NFD'、'NFKC' 或 'NFKD'。
型別: UnicodeNormalizer
的例項屬性
unicodeNormalizer.normalize(text) ⇒ <code> string </code>
透過應用 Unicode 歸一化來歸一化輸入文字。
型別: UnicodeNormalizer
的例項方法
返回: string
- 歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的輸入文字。 |
tokenizers~NFC ⇐ <code> UnicodeNormalizer </code>
將 Unicode 正規化 C (NFC) 應用於輸入文字的規範器。先進行規範分解,然後進行規範組合。
型別: tokenizers
的內部類
擴充套件: UnicodeNormalizer
tokenizers~NFD ⇐ <code> UnicodeNormalizer </code>
將 Unicode 正規化 D (NFD) 應用於輸入文字的規範器。規範分解。
型別: tokenizers
的內部類
擴充套件: UnicodeNormalizer
tokenizers~NFKC ⇐ <code> UnicodeNormalizer </code>
將 Unicode 正規化 KC (NFKC) 應用於輸入文字的規範器。先進行相容分解,然後進行規範組合。
型別: tokenizers
的內部類
擴充套件: UnicodeNormalizer
tokenizers~NFKD ⇐ <code> UnicodeNormalizer </code>
將 Unicode 正規化 KD (NFKD) 應用於輸入文字的規範器。相容分解。
型別: tokenizers
的內部類
擴充套件: UnicodeNormalizer
tokenizers~StripNormalizer
一個從輸入文字中去除前導和/或尾隨空白字元的規範器。
型別: tokenizers
的內部類
stripNormalizer.normalize(text) ⇒ <code> string </code>
從輸入文字中去除前導和/或尾隨空白字元。
類別: StripNormalizer
的例項方法
返回: string
- 歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 輸入文字。 |
tokenizers~StripAccents ⇐ <code> Normalizer </code>
StripAccents 規範器會移除文字中的所有重音符號。
型別: tokenizers
的內部類
繼承自: Normalizer
stripAccents.normalize(text) ⇒ <code> string </code>
移除文字中的所有重音符號。
類別: StripAccents
的例項方法
返回: string
- 沒有重音符號的規範化文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 輸入文字。 |
tokenizers~Lowercase ⇐ <code> Normalizer </code>
將輸入字串轉換為小寫的規範器。
型別: tokenizers
的內部類
繼承自: Normalizer
lowercase.normalize(text) ⇒ <code> string </code>
將輸入字串轉換為小寫。
類別: Lowercase
的例項方法
返回: string
- 歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的文字。 |
tokenizers~Prepend ⇐ <code> Normalizer </code>
在輸入字串前新增一個字串的規範器。
型別: tokenizers
的內部類
繼承自: Normalizer
prepend.normalize(text) ⇒ <code> string </code>
在輸入字串前新增指定內容。
類別: Prepend
的例項方法
返回: string
- 歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的文字。 |
tokenizers~NormalizerSequence ⇐ <code> Normalizer </code>
一個按順序應用一系列規範器的規範器。
型別: tokenizers
的內部類
繼承自: Normalizer
- ~NormalizerSequence ⇐
Normalizer
new NormalizerSequence(config)
建立一個新的 NormalizerSequence 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
config.normalizers | Array.<Object> | 一個包含規範器配置物件的陣列。 |
normalizerSequence.normalize(text) ⇒ <code> string </code>
將一系列規範器應用於輸入文字。
類別: NormalizerSequence
的例項方法
返回: string
- 歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的文字。 |
tokenizers~BertNormalizer ⇐ <code> Normalizer </code>
表示 BERT 分詞中使用的規範器的類。
型別: tokenizers
的內部類
繼承自: Normalizer
- ~BertNormalizer ⇐
Normalizer
._tokenize_chinese_chars(text)
⇒string
.stripAccents(text)
⇒string
.normalize(text)
⇒string
bertNormalizer._tokenize_chinese_chars(text) ⇒ <code> string </code>
在輸入文字中的任何 CJK(中文、日文或韓文)字元周圍新增空格。
類別: BertNormalizer
的例項方法
返回: string
- 在 CJK 字元周圍添加了空格的分詞後文本。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要進行分詞的輸入文字。 |
bertNormalizer.stripAccents(text) ⇒ <code> string </code>
從給定文字中去除重音符號。
類別: BertNormalizer
的例項方法
返回: string
- 移除了重音符號的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要去除重音符號的文字。 |
bertNormalizer.normalize(text) ⇒ <code> string </code>
根據配置對給定文字進行規範化。
類別: BertNormalizer
的例項方法
返回: string
- 歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的文字。 |
tokenizers~PreTokenizer ⇐ <code> Callable </code>
一個可呼叫的類,表示分詞中使用的預分詞器。子類應實現 pre_tokenize_text
方法來定義特定的預分詞邏輯。
型別: tokenizers
的內部類
繼承自: Callable
- ~PreTokenizer ⇐
Callable
- 例項
.pre_tokenize_text(text, [options])
⇒Array.<string>
.pre_tokenize(text, [options])
⇒Array.<string>
._call(text, [options])
⇒Array.<string>
- 靜態
.fromConfig(config)
⇒PreTokenizer
- 例項
preTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
子類應實現此方法來定義特定的預分詞邏輯。
類別: PreTokenizer
的例項抽象方法
返回: Array.<string>
- 預分詞後的文字。
丟擲:
Error
如果方法未在子類中實現。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要進行預分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
preTokenizer.pre_tokenize(text, [options]) ⇒ <code> Array. < string > </code>
將給定文字分詞為預分詞單元。
類別: PreTokenizer
的例項方法
返回: Array.<string>
- 一個包含預分詞單元的陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | string | Array<string> | 要進行預分詞的文字或文字陣列。 |
[options] | Object | 預分詞邏輯的附加選項。 |
preTokenizer._call(text, [options]) ⇒ <code> Array. < string > </code>
PreTokenizer#pre_tokenize 的別名。
類別: PreTokenizer
的例項方法
重寫: _call
返回: Array.<string>
- 一個包含預分詞單元的陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | string | Array<string> | 要進行預分詞的文字或文字陣列。 |
[options] | Object | 預分詞邏輯的附加選項。 |
PreTokenizer.fromConfig(config) ⇒ <code> PreTokenizer </code>
工廠方法,根據提供的配置返回 PreTokenizer
子類的例項。
類別: PreTokenizer
的靜態方法
返回: PreTokenizer
- PreTokenizer
子類的例項。
丟擲:
Error
如果提供的配置物件不對應任何已知的預分詞器。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 預分詞器的配置物件。 |
tokenizers~BertPreTokenizer ⇐ <code> PreTokenizer </code>
型別: tokenizers
的內部類
擴充套件: PreTokenizer
- ~BertPreTokenizer ⇐
PreTokenizer
new BertPreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new BertPreTokenizer(config)
一個預分詞器,使用類似於 BERT 原始實現中使用的基本分詞方案將文字分割成詞片段。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
bertPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
使用 BERT 預分詞方案對單個文字進行分詞。
類別: BertPreTokenizer
的例項方法
返回: Array.<string>
- 一個包含詞元的陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~ByteLevelPreTokenizer ⇐ <code> PreTokenizer </code>
一個將文字分割成位元組對編碼 (BPE) 子詞的預分詞器。
型別: tokenizers
的內部類
擴充套件: PreTokenizer
- ~ByteLevelPreTokenizer ⇐
PreTokenizer
new ByteLevelPreTokenizer(config)
.add_prefix_space
:boolean
.trim_offsets
:boolean
.use_regex
:boolean
.pre_tokenize_text(text, [options])
⇒Array.<string>
new ByteLevelPreTokenizer(config)
建立 ByteLevelPreTokenizer
類的新例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
byteLevelPreTokenizer.add_prefix_space : <code> boolean </code>
是否在第一個單詞前新增一個前導空格。這使得可以像處理其他單詞一樣處理第一個單詞。
類別: ByteLevelPreTokenizer
的例項屬性
byteLevelPreTokenizer.trim_offsets : <code> boolean </code>
後處理步驟是否應該修剪偏移量以避免包含空白字元。
類別: ByteLevelPreTokenizer
的例項屬性
待辦
- 在預分詞步驟中使用此選項。
byteLevelPreTokenizer.use_regex : <code> boolean </code>
是否使用標準的 GPT2 正則表示式進行空白字元分割。如果你想使用自己的分割方式,請將其設定為 False。預設為 true。
類別: ByteLevelPreTokenizer
的例項屬性
byteLevelPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
使用位元組級分詞法對單段文字進行分詞。
類別: ByteLevelPreTokenizer
的例項方法
返回: Array.<string>
- 一個包含詞元的陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~SplitPreTokenizer ⇐ <code> PreTokenizer </code>
使用給定的模式分割文字。
型別: tokenizers
的內部類
擴充套件: PreTokenizer
- ~SplitPreTokenizer ⇐
PreTokenizer
new SplitPreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new SplitPreTokenizer(config)
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 預分詞器的配置選項。 |
config.pattern | Object | 用於分割文字的模式。可以是一個字串或一個正則表示式物件。 |
config.pattern.String | string | undefined | 用於分割的字串。僅當模式是字串時定義。 |
config.pattern.Regex | string | undefined | 用於分割的正則表示式。僅當模式是正則表示式時定義。 |
config.behavior | SplitDelimiterBehavior | 分割時使用的行為。 |
config.invert | boolean | 是分割(invert=false)還是匹配(invert=true)模式。 |
splitPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過使用給定的模式分割文字來進行分詞。
類別: SplitPreTokenizer
的例項方法
返回: Array.<string>
- 一個包含詞元的陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~PunctuationPreTokenizer ⇐ <code> PreTokenizer </code>
根據標點符號分割文字。
型別: tokenizers
的內部類
擴充套件: PreTokenizer
- ~PunctuationPreTokenizer ⇐
PreTokenizer
new PunctuationPreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new PunctuationPreTokenizer(config)
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 預分詞器的配置選項。 |
config.behavior | SplitDelimiterBehavior | 分割時使用的行為。 |
punctuationPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過使用給定的模式分割文字來進行分詞。
類別: PunctuationPreTokenizer
的例項方法
返回: Array.<string>
- 一個包含詞元的陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~DigitsPreTokenizer ⇐ <code> PreTokenizer </code>
根據數字分割文字。
型別: tokenizers
的內部類
擴充套件: PreTokenizer
- ~DigitsPreTokenizer ⇐
PreTokenizer
new DigitsPreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new DigitsPreTokenizer(config)
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 預分詞器的配置選項。 |
config.individual_digits | boolean | 是否按單個數字進行分割。 |
digitsPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過使用給定的模式分割文字來進行分詞。
類別: DigitsPreTokenizer
的例項方法
返回: Array.<string>
- 一個包含詞元的陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~PostProcessor ⇐ <code> Callable </code>
型別: tokenizers
的內部類
繼承自: Callable
- ~PostProcessor ⇐
Callable
new PostProcessor(config)
- 例項
.post_process(tokens, ...args)
⇒PostProcessedOutput
._call(tokens, ...args)
⇒PostProcessedOutput
- 靜態
.fromConfig(config)
⇒PostProcessor
new PostProcessor(config)
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 後處理器的配置。 |
postProcessor.post_process(tokens, ...args) ⇒ <code> PostProcessedOutput </code>
需要在子類中實現的方法,用於對給定的詞元應用後處理。
類別: PostProcessor
的例項方法
返回: PostProcessedOutput
- 後處理後的詞元。
丟擲:
Error
如果方法未在子類中實現。
引數量 | 型別 | 描述 |
---|---|---|
tokens | 陣列 | 要進行後處理的輸入詞元。 |
...args | * | 後處理邏輯所需的附加引數。 |
postProcessor._call(tokens, ...args) ⇒ <code> PostProcessedOutput </code>
PostProcessor#post_process 的別名。
類別: PostProcessor
的例項方法
重寫: _call
返回: PostProcessedOutput
- 後處理後的詞元。
引數量 | 型別 | 描述 |
---|---|---|
tokens | 陣列 | 要進行後處理的文字或文字陣列。 |
...args | * | 後處理邏輯所需的附加引數。 |
PostProcessor.fromConfig(config) ⇒ <code> PostProcessor </code>
用於從配置物件建立 PostProcessor 物件的工廠方法。
類別: PostProcessor
的靜態方法
返回: PostProcessor
- 從給定配置建立的 PostProcessor 物件。
丟擲:
Error
如果遇到未知的 PostProcessor 型別。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 表示 PostProcessor 的配置物件。 |
tokenizers~BertProcessing
一個在輸入內容的開頭和結尾新增特殊詞元的後處理器。
型別: tokenizers
的內部類
- ~BertProcessing
new BertProcessing(config)
.post_process(tokens, [tokens_pair])
⇒PostProcessedOutput
new BertProcessing(config)
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 後處理器的配置。 |
config.cls | Array.<string> | 要新增到輸入內容開頭的特殊詞元。 |
config.sep | Array.<string> | 要新增到輸入內容結尾的特殊詞元。 |
bertProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>
將特殊詞元新增到輸入內容的開頭和結尾。
類別: BertProcessing
的例項方法
返回: PostProcessedOutput
- 在開頭和結尾添加了特殊詞元的後處理後詞元。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
tokens | Array.<string> | 輸入詞元。 | |
[tokens_pair] | Array.<string> |
| 可選的第二組輸入詞元。 |
tokenizers~TemplateProcessing ⇐ <code> PostProcessor </code>
用實際詞元替換模板中特殊詞元的後處理器。
型別: tokenizers
的內部類
擴充套件: PostProcessor
- ~TemplateProcessing ⇐
PostProcessor
new TemplateProcessing(config)
.post_process(tokens, [tokens_pair])
⇒PostProcessedOutput
new TemplateProcessing(config)
建立一個新的 TemplateProcessing
例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 後處理器的配置選項。 |
config.single | 陣列 | 單個詞元序列的模板。 |
config.pair | 陣列 | 一對詞元序列的模板。 |
templateProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>
用實際詞元替換模板中的特殊詞元。
類別: TemplateProcessing
的例項方法
返回: PostProcessedOutput
- 一個物件,包含用實際詞元替換了特殊詞元的詞元列表。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
tokens | Array.<string> | 第一個序列的詞元列表。 | |
[tokens_pair] | Array.<string> |
| 第二個序列的詞元列表(可選)。 |
tokenizers~ByteLevelPostProcessor ⇐ <code> PostProcessor </code>
一個按原樣返回給定詞元的後處理器。
型別: tokenizers
的內部類
擴充套件: PostProcessor
byteLevelPostProcessor.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>
對給定的詞元進行後處理。
類別: ByteLevelPostProcessor
的例項方法
返回: PostProcessedOutput
- 包含後處理後詞元的物件。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
tokens | Array.<string> | 第一個序列的詞元列表。 | |
[tokens_pair] | Array.<string> |
| 第二個序列的詞元列表(可選)。 |
tokenizers~PostProcessorSequence
一個按順序應用多個後處理器的後處理器。
型別: tokenizers
的內部類
- ~PostProcessorSequence
new PostProcessorSequence(config)
.post_process(tokens, [tokens_pair])
⇒PostProcessedOutput
new PostProcessorSequence(config)
建立一個新的 PostProcessorSequence 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
config.processors | Array.<Object> | 要應用的後處理器列表。 |
postProcessorSequence.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>
對給定的詞元進行後處理。
類別: PostProcessorSequence
的例項方法
返回: PostProcessedOutput
- 包含後處理後詞元的物件。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
tokens | Array.<string> | 第一個序列的詞元列表。 | |
[tokens_pair] | Array.<string> |
| 第二個序列的詞元列表(可選)。 |
tokenizers~Decoder ⇐ <code> Callable </code>
詞元解碼器的基類。
型別: tokenizers
的內部類
繼承自: Callable
- ~Decoder ⇐
Callable
new Decoder(config)
- 例項
.added_tokens
:Array.<AddedToken>
._call(tokens)
⇒string
.decode(tokens)
⇒string
.decode_chain(tokens)
⇒Array.<string>
- 靜態
.fromConfig(config)
⇒Decoder
new Decoder(config)
建立 Decoder
的例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
decoder.added_tokens : <code> Array. < AddedToken > </code>
類別: Decoder
的例項屬性
decoder._call(tokens) ⇒ <code> string </code>
呼叫 decode
方法。
類別: Decoder
的例項方法
重寫: _call
返回: string
- 解碼後的字串。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 令牌列表。 |
decoder.decode(tokens) ⇒ <code> string </code>
解碼一個詞元列表。
類別: Decoder
的例項方法
返回: string
- 解碼後的字串。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 令牌列表。 |
decoder.decode_chain(tokens) ⇒ <code> Array. < string > </code>
將解碼器應用於一個詞元列表。
類別: Decoder
的例項方法
返回: Array.<string>
- 解碼後的詞元列表。
丟擲:
Error
如果 `decode_chain` 方法未在子類中實現。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 令牌列表。 |
Decoder.fromConfig(config) ⇒ <code> Decoder </code>
根據提供的配置建立一個解碼器例項。
類別: Decoder
的靜態方法
返回: Decoder
- 一個解碼器例項。
丟擲:
- 如果提供了未知的解碼器型別,則返回
Error
。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
tokenizers~FuseDecoder
Fuse 僅將所有分詞(token)融合成一個大字串。這通常是解碼的最後一步,但這個解碼器的存在是為了以防某些解碼器需要在此步驟之後進行操作。
型別: tokenizers
的內部類
fuseDecoder.decode_chain() : <code> * </code>
類別: FuseDecoder
的例項方法
tokenizers~WordPieceDecoder ⇐ <code> Decoder </code>
一個將 WordPiece 分詞列表解碼為單個字串的解碼器。
型別: tokenizers
的內部類
繼承自: Decoder
- ~WordPieceDecoder ⇐
Decoder
new WordPieceDecoder(config)
建立一個新的 WordPieceDecoder 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
config.prefix | 字串 | 用於 WordPiece 編碼的字首。 |
config.cleanup | boolean | 是否清理解碼後的字串。 |
wordPieceDecoder.decode_chain() : <code> * </code>
類別: WordPieceDecoder
的例項方法
tokenizers~ByteLevelDecoder ⇐ <code> Decoder </code>
用於分詞輸出的位元組級解碼器。繼承自 Decoder
類。
型別: tokenizers
的內部類
繼承自: Decoder
- ~ByteLevelDecoder ⇐
Decoder
new ByteLevelDecoder(config)
建立一個 ByteLevelDecoder
物件。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
byteLevelDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>
透過解碼每個位元組將分詞陣列轉換為字串。
類別: ByteLevelDecoder
的例項方法
返回: string
- 解碼後的字串。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 需要解碼的分詞陣列。 |
byteLevelDecoder.decode_chain() : <code> * </code>
類別: ByteLevelDecoder
的例項方法
tokenizers~CTCDecoder
CTC (Connectionist Temporal Classification) 解碼器。請參閱 https://github.com/huggingface/tokenizers/blob/bb38f390a61883fc2f29d659af696f428d1cda6b/tokenizers/src/decoders/ctc.rs
型別: tokenizers
的內部類
ctcDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>
將連線主義時間分類 (CTC) 輸出的分詞轉換為單個字串。
類別: CTCDecoder
的例項方法
返回: string
- 解碼後的字串。
引數量 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 需要解碼的分詞陣列。 |
ctcDecoder.decode_chain() : <code> * </code>
類別: CTCDecoder
的例項方法
tokenizers~DecoderSequence ⇐ <code> Decoder </code>
應用一系列解碼器。
型別: tokenizers
的內部類
繼承自: Decoder
- ~DecoderSequence ⇐
Decoder
new DecoderSequence(config)
建立一個新的 DecoderSequence 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 配置物件。 |
config.decoders | Array.<Object> | 要應用的解碼器列表。 |
decoderSequence.decode_chain() : <code> * </code>
類別: DecoderSequence
的例項方法
tokenizers~MetaspacePreTokenizer ⇐ <code> PreTokenizer </code>
此預處理器(PreTokenizer)用給定的替換字元替換空格,如果需要則新增字首空格,並返回一個分詞列表。
型別: tokenizers
的內部類
擴充套件: PreTokenizer
- ~MetaspacePreTokenizer ⇐
PreTokenizer
new MetaspacePreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new MetaspacePreTokenizer(config)
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
config | Object | MetaspacePreTokenizer 的配置物件。 | |
config.add_prefix_space | boolean | 是否在第一個分詞前新增字首空格。 | |
config.replacement | 字串 | 用於替換空格的字元。 | |
[config.str_rep] | 字串 | “config.replacement” | 替換字元的可選字串表示。 |
[config.prepend_scheme] | 'first' | 'never' | 'always' | 'always' | metaspace 前置方案。 |
metaspacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
此方法接收一個字串,用替換字元替換空格,如果需要則新增字首空格,並返回一個新的分詞列表。
類別: MetaspacePreTokenizer
的例項方法
返回: Array.<string>
- 一個新的預分詞列表。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要進行預分詞的文字。 |
[options] | Object | 預分詞的選項。 |
[options.section_index] | 數字 | 要進行預分詞的部分的索引。 |
tokenizers~MetaspaceDecoder ⇐ <code> Decoder </code>
MetaspaceDecoder 類繼承自 Decoder 類,用於解碼 Metaspace 分詞結果。
型別: tokenizers
的內部類
繼承自: Decoder
- ~MetaspaceDecoder ⇐
Decoder
new MetaspaceDecoder(config)
構造一個新的 MetaspaceDecoder 物件。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | MetaspaceDecoder 的配置物件。 |
config.add_prefix_space | boolean | 是否在解碼後的字串前新增字首空格。 |
config.replacement | 字串 | 用於替換空格的字串。 |
metaspaceDecoder.decode_chain() : <code> * </code>
類別: MetaspaceDecoder
的例項方法
tokenizers~Precompiled ⇐ <code> Normalizer </code>
一個應用預編譯字元對映(charsmap)的規範化器。這對於在 C++ 中應用複雜的規範化並將其暴露給 JavaScript 非常有用。
型別: tokenizers
的內部類
繼承自: Normalizer
- ~Precompiled ⇐
Normalizer
new Precompiled(config)
.normalize(text)
⇒string
new Precompiled(config)
建立一個新的 Precompiled 規範化器例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | Precompiled 規範化器的配置物件。 |
config.precompiled_charsmap | Object | 預編譯的字元對映物件。 |
precompiled.normalize(text) ⇒ <code> string </code>
透過應用預編譯的字元對映來規範化給定的文字。
類別: Precompiled
的例項方法
返回: string
- 歸一化後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要歸一化的文字。 |
tokenizers~PreTokenizerSequence ⇐ <code> PreTokenizer </code>
一個對輸入文字應用一系列預處理器(pre-tokenizer)的預處理器。
型別: tokenizers
的內部類
擴充套件: PreTokenizer
- ~PreTokenizerSequence ⇐
PreTokenizer
new PreTokenizerSequence(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new PreTokenizerSequence(config)
建立一個 PreTokenizerSequence 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 預處理器序列的配置物件。 |
config.pretokenizers | Array.<Object> | 一個預處理器配置的陣列。 |
preTokenizerSequence.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
依次將序列中的每個預處理器應用於輸入文字。
類別: PreTokenizerSequence
的例項方法
返回: Array.<string>
- 預分詞後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要進行預分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~WhitespacePreTokenizer
按詞邊界進行分割(使用以下正則表示式:\w+|[^\w\s]+
)。
型別: tokenizers
的內部類
- ~WhitespacePreTokenizer
new WhitespacePreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new WhitespacePreTokenizer(config)
建立一個 WhitespacePreTokenizer 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 預處理器的配置物件。 |
whitespacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過按詞邊界分割輸入文字來進行預分詞。
類別: WhitespacePreTokenizer
的例項方法
返回: Array.<string>
- 透過按空白字元分割輸入文字而產生的分詞陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要進行預分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~WhitespaceSplit ⇐ <code> PreTokenizer </code>
透過空白字元將一段文字分割成單個分詞。
型別: tokenizers
的內部類
擴充套件: PreTokenizer
- ~WhitespaceSplit ⇐
PreTokenizer
new WhitespaceSplit(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new WhitespaceSplit(config)
建立一個 WhitespaceSplit 例項。
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 預處理器的配置物件。 |
whitespaceSplit.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過按空白字元分割輸入文字來進行預分詞。
類別: WhitespaceSplit
的例項方法
返回: Array.<string>
- 透過按空白字元分割輸入文字而產生的分詞陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要進行預分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~ReplacePreTokenizer
型別: tokenizers
的內部類
- ~ReplacePreTokenizer
new ReplacePreTokenizer(config)
.pre_tokenize_text(text, [options])
⇒Array.<string>
new ReplacePreTokenizer(config)
引數量 | 型別 | 描述 |
---|---|---|
config | Object | 預分詞器的配置選項。 |
config.pattern | Object | 用於分割文字的模式。可以是一個字串或一個正則表示式物件。 |
config.content | 字串 | 用來替換模式的內容。 |
replacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過替換某些字元來對輸入文字進行預分詞。
類別: ReplacePreTokenizer
的例項方法
返回: Array.<string>
- 透過替換某些字元而產生的分詞陣列。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要進行預分詞的文字。 |
[options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~BYTES_TO_UNICODE ⇒ <code> Object </code>
返回 utf-8 位元組列表以及到 unicode 字串的對映。特別避免對映到 BPE 程式碼會出錯的空白/控制字元。
類別: tokenizers
的內部常量
返回: Object
- 以 utf-8 位元組為鍵,unicode 字串為值的物件。
tokenizers~loadTokenizer(pretrained_model_name_or_path, options) ⇒ <code> Promise. < Array < any > > </code>
從指定路徑載入分詞器。
類別: tokenizers
的內部方法
返回: Promise.<Array<any>>
- 一個解析後包含已載入分詞器資訊的 Promise。
引數量 | 型別 | 描述 |
---|---|---|
pretrained_model_name_or_path | 字串 | 分詞器目錄的路徑。 |
選項 | PretrainedTokenizerOptions | 載入分詞器的其他選項。 |
tokenizers~regexSplit(text, regex) ⇒ <code> Array. < string > </code>
一個輔助函式,用於根據正則表示式分割字串,但保留分隔符。這是必需的,因為 JavaScript 的 .split()
方法不保留分隔符,而將其包裝在捕獲組中會導致現有捕獲組出現問題(由於巢狀)。
類別: tokenizers
的內部方法
返回: Array.<string>
- 分割後的字串。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要分割的文字。 |
regex | RegExp | 用於分割的正則表示式。 |
tokenizers~createPattern(pattern, invert) ⇒ <code> RegExp </code> | <code> null </code>
從配置物件構造模式的輔助方法。
類別: tokenizers
的內部方法
返回: RegExp
| null
- 編譯後的模式。
引數量 | 型別 | 預設 | 描述 |
---|---|---|---|
pattern | Object | 模式物件。 | |
反轉 | boolean | true | 是否反轉模式。 |
tokenizers~objectToMap(obj) ⇒ <code> Map. < string, any > </code>
將物件轉換為 Map 的輔助函式。
類別: tokenizers
的內部方法
返回: Map.<string, any>
- map。
引數量 | 型別 | 描述 |
---|---|---|
obj | Object | 要轉換的物件。 |
tokenizers~prepareTensorForDecode(tensor) ⇒ <code> Array. < number > </code>
在解碼前將張量轉換為列表的輔助函式。
類別: tokenizers
的內部方法
返回: Array.<number>
- 列表形式的張量。
引數量 | 型別 | 描述 |
---|---|---|
張量 | 張量 | 要轉換的張量。 |
tokenizers~clean_up_tokenization(text) ⇒ <code> string </code>
清理簡單的英文分詞產物,如標點前的空格和縮寫形式。
類別: tokenizers
的內部方法
返回: string
- 清理後的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要清理的文字。 |
tokenizers~remove_accents(text) ⇒ <code> string </code>
從字串中移除重音符號的輔助函式。
類別: tokenizers
的內部方法
返回: string
- 移除了重音符號的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要移除重音符號的文字。 |
tokenizers~lowercase_and_remove_accent(text) ⇒ <code> string </code>
將字串轉為小寫並移除重音符號的輔助函式。
類別: tokenizers
的內部方法
返回: string
- 已轉為小寫並移除重音符號的文字。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要轉為小寫並移除重音符號的文字。 |
tokenizers~whitespace_split(text) ⇒ <code> Array. < string > </code>
按空白字元分割字串。
類別: tokenizers
的內部方法
返回: Array.<string>
- 分割後的字串。
引數量 | 型別 | 描述 |
---|---|---|
text | 字串 | 要分割的文字。 |
tokenizers~PretrainedTokenizerOptions : <code> Object </code>
特定於分詞器的額外屬性。
類別: tokenizers
的內部 typedef
屬性
名稱 | 型別 | 預設 | 描述 |
---|---|---|---|
[legacy] | boolean | false | 是否應使用分詞器的 |
tokenizers~BPENode : <code> Object </code>
類別: tokenizers
的內部 typedef
屬性
名稱 | 型別 | 描述 |
---|---|---|
token | 字串 | 與節點關聯的分詞。 |
bias | 數字 | 節點的位置偏差。 |
[score] | 數字 | 節點的分數。 |
[prev] | BPENode | 連結串列中的前一個節點。 |
[next] | BPENode | 連結串列中的下一個節點。 |
tokenizers~SplitDelimiterBehavior : <code> ’ removed ’ </code> | <code> ’ isolated ’ </code> | <code> ’ mergedWithPrevious ’ </code> | <code> ’ mergedWithNext ’ </code> | <code> ’ contiguous ’ </code>
類別: tokenizers
的內部 typedef
tokenizers~PostProcessedOutput : <code> Object </code>
類別: tokenizers
的內部 typedef
屬性
名稱 | 型別 | 描述 |
---|---|---|
tokens | Array.<string> | 後處理器(post-processor)生成的分詞列表。 |
[token_type_ids] | Array.<number> | 後處理器生成的分詞型別 ID 列表。 |
tokenizers~EncodingSingle : <code> Object </code>
類別: tokenizers
的內部 typedef
屬性
名稱 | 型別 | 描述 |
---|---|---|
input_ids | Array.<number> | 要輸入到模型中的分詞 ID 列表。 |
attention_mask | Array.<number> | 要輸入到模型中的分詞型別 ID 列表 |
[token_type_ids] | Array.<number> | 指定模型應關注哪些分詞的索引列表 |
tokenizers~Message : <code> Object </code>
類別: tokenizers
的內部 typedef
屬性
名稱 | 型別 | 描述 |
---|---|---|
角色 | 字串 | 訊息的角色(例如,“user” 或 “assistant” 或 “system”)。 |
內容 | 字串 | 訊息的內容。 |
tokenizers~BatchEncoding : <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> Tensor </code>
儲存分詞器呼叫函式的輸出。
類別: tokenizers
的內部 typedef
屬性
名稱 | 型別 | 描述 |
---|---|---|
input_ids | BatchEncodingItem | 要輸入到模型中的分詞 ID 列表。 |
attention_mask | BatchEncodingItem | 指定模型應關注哪些分詞的索引列表。 |
[token_type_ids] | BatchEncodingItem | 要輸入到模型中的分詞型別 ID 列表。 |
< > 在 GitHub 上更新