Transformers.js 文件
分詞器
並獲得增強的文件體驗
開始使用
分詞器
分詞器用於為模型準備文字輸入。
示例: 建立一個 AutoTokenizer 並用它來對一個句子進行分詞。這將根據 tokenizer.json 中定義的分詞器型別自動檢測分詞器型別。
import { AutoTokenizer } from '@huggingface/transformers';
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');
const { input_ids } = await tokenizer('I love transformers!');
// Tensor {
// data: BigInt64Array(6) [101n, 1045n, 2293n, 19081n, 999n, 102n],
// dims: [1, 6],
// type: 'int64',
// size: 6,
// }- 分詞器
- 靜態
- .TokenizerModel ⇐
Callablenew TokenizerModel(config)- 例項
.vocab:Array.<string>.tokens_to_ids:Map.<string, number>.fuse_unk:boolean._call(tokens)⇒Array.<string>.encode(tokens)⇒Array.<string>.convert_tokens_to_ids(tokens)⇒Array.<number>.convert_ids_to_tokens(ids)⇒Array.<string>
- 靜態
.fromConfig(config, ...args)⇒TokenizerModel
- .PreTrainedTokenizer
new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)- 例項
.added_tokens:Array.<AddedToken>.added_tokens_map:Map.<string, AddedToken>.remove_space:boolean._call(text, options)⇒BatchEncoding._encode_text(text)⇒Array<string>|null._tokenize_helper(text, options)⇒*.tokenize(text, options)⇒Array.<string>.encode(text, options)⇒Array.<number>.batch_decode(batch, decode_args)⇒Array.<string>.decode(token_ids, [decode_args])⇒string.decode_single(token_ids, decode_args)⇒string.get_chat_template(options)⇒string.apply_chat_template(conversation, options)⇒string|Tensor|Array<number>|Array<Array<number>>|BatchEncoding
- 靜態
.from_pretrained(pretrained_model_name_or_path, options)⇒Promise.<PreTrainedTokenizer>
- .BertTokenizer ⇐
PreTrainedTokenizer - .AlbertTokenizer ⇐
PreTrainedTokenizer - .NllbTokenizer
- .M2M100Tokenizer
- .WhisperTokenizer ⇐
PreTrainedTokenizer - .MarianTokenizer
- .AutoTokenizer
new AutoTokenizer().from_pretrained(pretrained_model_name_or_path, options)⇒Promise.<PreTrainedTokenizer>
.is_chinese_char(cp)⇒boolean
- .TokenizerModel ⇐
- 內部
- ~AddedToken
- ~WordPieceTokenizer ⇐
TokenizerModelnew WordPieceTokenizer(config).tokens_to_ids:Map.<string, number>.unk_token_id:number.unk_token:string.max_input_chars_per_word:number.vocab:Array.<string>.encode(tokens)⇒Array.<string>
- ~Unigram ⇐
TokenizerModelnew Unigram(config, moreConfig).scores:Array.<number>.populateNodes(lattice).tokenize(normalized)⇒Array.<string>.encode(tokens)⇒Array.<string>
- ~BPE ⇐
TokenizerModelnew BPE(config).tokens_to_ids:Map.<string, number>.merges:*.config.merges:*
.max_length_to_cache.cache_capacity.clear_cache().bpe(token)⇒Array.<string>.encode(tokens)⇒Array.<string>
- ~LegacyTokenizerModel
new LegacyTokenizerModel(config, moreConfig).tokens_to_ids:Map.<string, number>
- ~Normalizer
new Normalizer(config)- 例項
.normalize(text)⇒string._call(text)⇒string
- 靜態
.fromConfig(config)⇒Normalizer
- ~Replace ⇐
Normalizer.normalize(text)⇒string
- ~UnicodeNormalizer ⇐
Normalizer.form:string.normalize(text)⇒string
- ~NFC ⇐
UnicodeNormalizer - ~NFD ⇐
UnicodeNormalizer - ~NFKC ⇐
UnicodeNormalizer - ~NFKD ⇐
UnicodeNormalizer - ~StripNormalizer
.normalize(text)⇒string
- ~StripAccents ⇐
Normalizer.normalize(text)⇒string
- ~Lowercase ⇐
Normalizer.normalize(text)⇒string
- ~Prepend ⇐
Normalizer.normalize(text)⇒string
- ~NormalizerSequence ⇐
Normalizer - ~BertNormalizer ⇐
Normalizer._tokenize_chinese_chars(text)⇒string.stripAccents(text)⇒string.normalize(text)⇒string
- ~PreTokenizer ⇐
Callable- 例項
.pre_tokenize_text(text, [options])⇒Array.<string>.pre_tokenize(text, [options])⇒Array.<string>._call(text, [options])⇒Array.<string>
- 靜態
.fromConfig(config)⇒PreTokenizer
- 例項
- ~BertPreTokenizer ⇐
PreTokenizernew BertPreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
- ~ByteLevelPreTokenizer ⇐
PreTokenizernew ByteLevelPreTokenizer(config).add_prefix_space:boolean.trim_offsets:boolean.use_regex:boolean.pre_tokenize_text(text, [options])⇒Array.<string>
- ~SplitPreTokenizer ⇐
PreTokenizernew SplitPreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
- ~PunctuationPreTokenizer ⇐
PreTokenizernew PunctuationPreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
- ~DigitsPreTokenizer ⇐
PreTokenizernew DigitsPreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
- ~PostProcessor ⇐
Callablenew PostProcessor(config)- 例項
.post_process(tokens, ...args)⇒PostProcessedOutput._call(tokens, ...args)⇒PostProcessedOutput
- 靜態
.fromConfig(config)⇒PostProcessor
- ~BertProcessing
new BertProcessing(config).post_process(tokens, [tokens_pair])⇒PostProcessedOutput
- ~TemplateProcessing ⇐
PostProcessornew TemplateProcessing(config).post_process(tokens, [tokens_pair])⇒PostProcessedOutput
- ~ByteLevelPostProcessor ⇐
PostProcessor.post_process(tokens, [tokens_pair])⇒PostProcessedOutput
- ~PostProcessorSequence
new PostProcessorSequence(config).post_process(tokens, [tokens_pair])⇒PostProcessedOutput
- ~Decoder ⇐
Callablenew Decoder(config)- 例項
.added_tokens:Array.<AddedToken>._call(tokens)⇒string.decode(tokens)⇒string.decode_chain(tokens)⇒Array.<string>
- 靜態
.fromConfig(config)⇒Decoder
- ~FuseDecoder
.decode_chain():*
- ~WordPieceDecoder ⇐
Decoder - ~ByteLevelDecoder ⇐
Decoder - ~CTCDecoder
.convert_tokens_to_string(tokens)⇒string.decode_chain():*
- ~DecoderSequence ⇐
Decoder - ~MetaspacePreTokenizer ⇐
PreTokenizernew MetaspacePreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
- ~MetaspaceDecoder ⇐
Decoder - ~Precompiled ⇐
Normalizernew Precompiled(config).normalize(text)⇒string
- ~PreTokenizerSequence ⇐
PreTokenizernew PreTokenizerSequence(config).pre_tokenize_text(text, [options])⇒Array.<string>
- ~WhitespacePreTokenizer
new WhitespacePreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
- ~WhitespaceSplit ⇐
PreTokenizernew WhitespaceSplit(config).pre_tokenize_text(text, [options])⇒Array.<string>
- ~ReplacePreTokenizer
new ReplacePreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
~BYTES_TO_UNICODE⇒Object~loadTokenizer(pretrained_model_name_or_path, options)⇒Promise.<Array<any>>~regexSplit(text, regex)⇒Array.<string>~createPattern(pattern, invert)⇒RegExp|null~objectToMap(obj)⇒Map.<string, any>~prepareTensorForDecode(tensor)⇒Array.<number>~clean_up_tokenization(text)⇒string~remove_accents(text)⇒string~lowercase_and_remove_accent(text)⇒string~whitespace_split(text)⇒Array.<string>~PretrainedTokenizerOptions:Object~BPENode:Object~SplitDelimiterBehavior:’removed’|’isolated’|’mergedWithPrevious’|’mergedWithNext’|’contiguous’~PostProcessedOutput:Object~EncodingSingle:Object~Message:Object~BatchEncoding:Array<number>|Array<Array<number>>|Tensor
- 靜態
tokenizers.TokenizerModel ⇐ <code> Callable </code>
分詞器模型的抽象基類。
型別: tokenizers 的靜態類
繼承自: Callable
- .TokenizerModel ⇐
Callablenew TokenizerModel(config)- 例項
.vocab:Array.<string>.tokens_to_ids:Map.<string, number>.fuse_unk:boolean._call(tokens)⇒Array.<string>.encode(tokens)⇒Array.<string>.convert_tokens_to_ids(tokens)⇒Array.<number>.convert_ids_to_tokens(ids)⇒Array.<string>
- 靜態
.fromConfig(config, ...args)⇒TokenizerModel
new TokenizerModel(config)
建立一個新的 TokenizerModel 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | TokenizerModel 的配置物件。 |
tokenizerModel.vocab : <code> Array. < string > </code>
型別: TokenizerModel 的例項屬性
tokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>
詞元到 ID 的對映。
型別: TokenizerModel 的例項屬性
tokenizerModel.fuse_unk : <code> boolean </code>
編碼時是否合併未知詞元。預設為 false。
型別: TokenizerModel 的例項屬性
tokenizerModel._call(tokens) ⇒ <code> Array. < string > </code>
呼叫 TokenizerModel 例項的內部函式。
型別: TokenizerModel 的例項方法
重寫: _call
返回: Array.<string> - 編碼後的詞元。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 要編碼的詞元。 |
tokenizerModel.encode(tokens) ⇒ <code> Array. < string > </code>
將詞元列表編碼為詞元 ID 列表。
型別: TokenizerModel 的例項方法
返回: Array.<string> - 編碼後的詞元。
丟擲:
- 如果在子類中未實現,則會丟擲錯誤。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 要編碼的詞元。 |
tokenizerModel.convert_tokens_to_ids(tokens) ⇒ <code> Array. < number > </code>
將詞元列表轉換為詞元 ID 列表。
型別: TokenizerModel 的例項方法
返回: Array.<number> - 轉換後的詞元 ID。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 要轉換的詞元。 |
tokenizerModel.convert_ids_to_tokens(ids) ⇒ <code> Array. < string > </code>
將詞元 ID 列表轉換為詞元列表。
型別: TokenizerModel 的例項方法
返回: Array.<string> - 轉換後的詞元。
| 引數量 | 型別 | 描述 |
|---|---|---|
| ids | Array<number> | Array<bigint> | 要轉換的詞元 ID。 |
TokenizerModel.fromConfig(config, ...args) ⇒ <code> TokenizerModel </code>
根據提供的配置物件例項化一個新的 TokenizerModel 例項。
型別: TokenizerModel 的靜態方法
返回: TokenizerModel - 一個新的 TokenizerModel 例項。
丟擲:
- 如果配置中的 TokenizerModel 型別未被識別,將丟擲錯誤。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | TokenizerModel 的配置物件。 |
| ...args | * | 傳遞給特定 TokenizerModel 建構函式的可選引數。 |
tokenizers.PreTrainedTokenizer
型別: tokenizers 的靜態類
- .PreTrainedTokenizer
new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)- 例項
.added_tokens:Array.<AddedToken>.added_tokens_map:Map.<string, AddedToken>.remove_space:boolean._call(text, options)⇒BatchEncoding._encode_text(text)⇒Array<string>|null._tokenize_helper(text, options)⇒*.tokenize(text, options)⇒Array.<string>.encode(text, options)⇒Array.<number>.batch_decode(batch, decode_args)⇒Array.<string>.decode(token_ids, [decode_args])⇒string.decode_single(token_ids, decode_args)⇒string.get_chat_template(options)⇒string.apply_chat_template(conversation, options)⇒string|Tensor|Array<number>|Array<Array<number>>|BatchEncoding
- 靜態
.from_pretrained(pretrained_model_name_or_path, options)⇒Promise.<PreTrainedTokenizer>
new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)
建立一個新的 PreTrainedTokenizer 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokenizerJSON | Object | 分詞器的 JSON。 |
| tokenizerConfig | Object | 分詞器的配置。 |
preTrainedTokenizer.added_tokens : <code> Array. < AddedToken > </code>
型別: PreTrainedTokenizer 的例項屬性
preTrainedTokenizer.added_tokens_map : <code> Map. < string, AddedToken > </code>
型別: PreTrainedTokenizer 的例項屬性
preTrainedTokenizer.remove_space : <code> boolean </code>
是否在分詞時去除文字(移除字串前後多餘的空格)。
型別: PreTrainedTokenizer 的例項屬性
preTrainedTokenizer._call(text, options) ⇒ <code> BatchEncoding </code>
編碼/分詞給定的文字。
型別: PreTrainedTokenizer 的例項方法
返回: BatchEncoding - 傳遞給模型的物件。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| text | string | Array<string> | 要分詞的文字。 | |
| 選項 | Object | 一個可選物件,包含以下屬性 | |
| [options.text_pair] | string | Array<string> | null | 要編碼的可選第二個序列。如果設定,必須與文字型別相同。 |
| [options.padding] | boolean | 'max_length' | false | 是否填充輸入序列。 |
| [options.add_special_tokens] | boolean | true | 是否新增與相應模型相關的特殊詞元。 |
| [options.truncation] | boolean | | 是否截斷輸入序列。 |
| [options.max_length] | 數字 | | 返回列表的最大長度,以及可選的填充長度。 |
| [options.return_tensor] | boolean | true | 是否以張量或陣列形式返回結果。 |
| [options.return_token_type_ids] | boolean | | 是否返回詞元型別 ID。 |
preTrainedTokenizer._encode_text(text) ⇒ <code> Array < string > </code> | <code> null </code>
使用分詞器的預處理器流水線編碼單個文字。
型別: PreTrainedTokenizer 的例項方法
返回: Array<string> | null - 編碼後的詞元。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | string | null | 要編碼的文字。 |
preTrainedTokenizer._tokenize_helper(text, options) ⇒ <code> * </code>
用於分詞一個文字以及可選的文字對的內部輔助函式。
型別: PreTrainedTokenizer 的例項方法
返回: * - 一個包含詞元和可選的詞元型別 ID 的物件。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| text | 字串 | 要分詞的文字。 | |
| 選項 | Object | 一個可選物件,包含以下屬性 | |
| [options.pair] | 字串 | null | 要分詞的可選第二個文字。 |
| [options.add_special_tokens] | boolean | false | 是否新增與相應模型相關的特殊詞元。 |
preTrainedTokenizer.tokenize(text, options) ⇒ <code> Array. < string > </code>
將字串轉換為詞元序列。
型別: PreTrainedTokenizer 的例項方法
返回: Array.<string> - 詞元列表。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| text | 字串 | 要編碼的序列。 | |
| 選項 | Object | 一個可選物件,包含以下屬性 | |
| [options.pair] | 字串 | 與第一個序列一起編碼的第二個序列。 | |
| [options.add_special_tokens] | boolean | false | 是否新增與相應模型相關的特殊詞元。 |
preTrainedTokenizer.encode(text, options) ⇒ <code> Array. < number > </code>
使用模型的tokenizer編碼單個文字或文字對。
型別: PreTrainedTokenizer 的例項方法
返回: Array.<number> - 表示編碼後文本的詞元 ID 陣列。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| text | 字串 | 要編碼的文字。 | |
| 選項 | Object | 一個可選物件,包含以下屬性 | |
| [options.text_pair] | 字串 | null | 要編碼的可選第二個文字。 |
| [options.add_special_tokens] | boolean | true | 是否新增與相應模型相關的特殊詞元。 |
| [options.return_token_type_ids] | boolean | | 是否返回 token_type_ids。 |
preTrainedTokenizer.batch_decode(batch, decode_args) ⇒ <code> Array. < string > </code>
解碼一批分詞後的序列。
型別: PreTrainedTokenizer 的例項方法
返回: Array.<string> - 解碼後的序列列表。
| 引數量 | 型別 | 描述 |
|---|---|---|
| batch | Array<Array<number>> | Tensor | 分詞後的輸入序列的列表/張量。 |
| decode_args | Object | (可選) 包含解碼引數的物件。 |
preTrainedTokenizer.decode(token_ids, [decode_args]) ⇒ <code> string </code>
將詞元 ID 序列解碼回字符串。
型別: PreTrainedTokenizer 的例項方法
返回: string - 解碼後的字串。
丟擲:
Error如果 `token_ids` 不是一個非空的整數陣列。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| token_ids | Array<number> | Array<bigint> | Tensor | 要解碼的詞元 ID 列表/張量。 | |
| [decode_args] | Object | {} | |
| [decode_args.skip_special_tokens] | boolean | false | 如果為 true,則從輸出字串中移除特殊詞元。 |
| [decode_args.clean_up_tokenization_spaces] | boolean | true | 如果為 true,則移除標點符號前和縮寫形式前的空格。 |
preTrainedTokenizer.decode_single(token_ids, decode_args) ⇒ <code> string </code>
將單個詞元 ID 列表解碼為字串。
型別: PreTrainedTokenizer 的例項方法
返回: string - 解碼後的字串
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| token_ids | Array<number> | Array<bigint> | 要解碼的詞元 ID 列表 | |
| decode_args | Object | 解碼的可選引數 | |
| [decode_args.skip_special_tokens] | boolean | false | 解碼時是否跳過特殊詞元 |
| [decode_args.clean_up_tokenization_spaces] | boolean | | 解碼時是否清理分詞空格。如果為 null,該值將設定為 |
preTrainedTokenizer.get_chat_template(options) ⇒ <code> string </code>
檢索用於分詞聊天訊息的聊天模板字串。此模板由 apply_chat_template 方法在內部使用,也可用於外部檢索模型的聊天模板,以更好地跟蹤生成過程。
型別: PreTrainedTokenizer 的例項方法
返回: string - 聊天模板字串。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| 選項 | Object | 一個可選物件,包含以下屬性 | |
| [options.chat_template] | 字串 | null | 用於此轉換的 Jinja 模板或模板名稱。通常不需要傳遞任何內容給此引數,因為預設會使用模型的模板。 |
| [options.tools] | Array.<Object> | | 模型可訪問的工具(可呼叫函式)列表。如果模板不支援函式呼叫,此引數將無效。每個工具應以 JSON Schema 形式傳遞,提供工具的名稱、描述和引數型別。更多資訊請參閱我們的聊天模板指南。 |
preTrainedTokenizer.apply_chat_template(conversation, options) ⇒ <code> string </code> | <code> Tensor </code> | <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> BatchEncoding </code>
將包含 "role" 和 "content" 鍵的訊息物件列表轉換為詞元 ID 列表。此方法旨在與聊天模型一起使用,並將讀取分詞器的 chat_template 屬性以確定轉換時使用的格式和控制詞元。
有關更多資訊,請參閱此處。
示例: 將聊天模板應用於對話。
import { AutoTokenizer } from "@huggingface/transformers";
const tokenizer = await AutoTokenizer.from_pretrained("Xenova/mistral-tokenizer-v1");
const chat = [
{ "role": "user", "content": "Hello, how are you?" },
{ "role": "assistant", "content": "I'm doing great. How can I help you today?" },
{ "role": "user", "content": "I'd like to show off how chat templating works!" },
]
const text = tokenizer.apply_chat_template(chat, { tokenize: false });
// "<s>[INST] Hello, how are you? [/INST]I'm doing great. How can I help you today?</s> [INST] I'd like to show off how chat templating works! [/INST]"
const input_ids = tokenizer.apply_chat_template(chat, { tokenize: true, return_tensor: false });
// [1, 733, 16289, 28793, 22557, 28725, 910, 460, 368, 28804, 733, 28748, 16289, 28793, 28737, 28742, 28719, 2548, 1598, 28723, 1602, 541, 315, 1316, 368, 3154, 28804, 2, 28705, 733, 16289, 28793, 315, 28742, 28715, 737, 298, 1347, 805, 910, 10706, 5752, 1077, 3791, 28808, 733, 28748, 16289, 28793]型別: PreTrainedTokenizer 的例項方法
返回: string | Tensor | Array<number> | Array<Array<number>> | BatchEncoding - 分詞後的輸出。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| conversation | Array.<Message> | 一個包含 | |
| 選項 | Object | 一個可選物件,包含以下屬性 | |
| [options.chat_template] | 字串 | null | 用於此轉換的 Jinja 模板。如果未傳遞此引數,則將使用模型的聊天模板。 |
| [options.tools] | Array.<Object> | | 模型可訪問的工具(可呼叫函式)列表。如果模板不支援函式呼叫,此引數將無效。每個工具應以 JSON Schema 形式傳遞,提供工具的名稱、描述和引數型別。更多資訊請參閱我們的聊天模板指南。 |
| [options.documents] | * | | 表示文件的字典列表,如果模型正在執行 RAG(檢索增強生成),這些文件將對模型可用。如果模板不支援 RAG,此引數將無效。我們建議每個文件都是一個包含 "title" 和 "text" 鍵的字典。有關使用聊天模板傳遞文件的示例,請參閱聊天模板指南的 RAG 部分。 |
| [options.add_generation_prompt] | boolean | false | 是否用表示助手訊息開始的詞元結束提示。當您想從模型生成響應時,這很有用。請注意,此引數將傳遞給聊天模板,因此模板必須支援此引數才能生效。 |
| [options.tokenize] | boolean | true | 是否對輸出進行分詞。如果為 false,輸出將是字串。 |
| [options.padding] | boolean | false | 是否將序列填充到最大長度。如果 tokenize 為 false,則無效。 |
| [options.truncation] | boolean | false | 是否將序列截斷到最大長度。如果 tokenize 為 false,則無效。 |
| [options.max_length] | 數字 | | 用於填充或截斷的最大長度(以詞元為單位)。如果 tokenize 為 false,則無效。如果未指定,將使用分詞器的 |
| [options.return_tensor] | boolean | true | 是否以 Tensor 或 Array 的形式返回輸出。如果 tokenize 為 false,則無效。 |
| [options.return_dict] | boolean | true | 是否返回帶有命名輸出的字典。如果 tokenize 為 false,則無效。 |
| [options.tokenizer_kwargs] | Object | {} | 傳遞給分詞器的其他選項。 |
PreTrainedTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>
從給定的 pretrained_model_name_or_path 載入預訓練的分詞器。
型別: PreTrainedTokenizer 的靜態方法
返回: Promise.<PreTrainedTokenizer> - PreTrainedTokenizer 類的新例項。
丟擲:
Error如果在 `pretrained_model_name_or_path` 中找不到 tokenizer.json 或 tokenizer_config.json 檔案,則丟擲錯誤。
| 引數量 | 型別 | 描述 |
|---|---|---|
| pretrained_model_name_or_path | 字串 | 預訓練分詞器的路徑。 |
| 選項 | PretrainedTokenizerOptions | 載入分詞器的其他選項。 |
tokenizers.BertTokenizer ⇐ <code> PreTrainedTokenizer </code>
BertTokenizer 是一個用於為 BERT 模型分詞文字的類。
型別: tokenizers 的靜態類
繼承自: PreTrainedTokenizer
tokenizers.AlbertTokenizer ⇐ <code> PreTrainedTokenizer </code>
Albert 分詞器
型別: tokenizers 的靜態類
繼承自: PreTrainedTokenizer
tokenizers.NllbTokenizer
NllbTokenizer 類用於為 NLLB(“不讓任何語言掉隊”)模型進行文字分詞。
“不讓任何語言掉隊”(NLLB)是一個首創的、AI 突破性專案,它開源了能夠直接在 200 多種語言對之間提供高質量翻譯的模型——包括阿斯圖里亞斯語、盧幹達語、烏爾都語等低資源語言。它旨在幫助人們與任何人、在任何地方進行交流,無論他們的語言偏好如何。更多資訊,請檢視他們的論文。
有關支援的語言列表(及其語言程式碼),
型別: tokenizers 的靜態類
請參閱: https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200
nllbTokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>
為 NllbTokenizer 構建翻譯輸入的輔助函式。
型別: NllbTokenizer 的例項方法
返回: Object - 傳遞給模型的物件。
| 引數量 | 型別 | 描述 |
|---|---|---|
| raw_inputs | string | Array<string> | 要分詞的文字。 |
| tokenizer_options | Object | 傳送給分詞器的選項 |
| generate_kwargs | Object | 生成選項。 |
tokenizers.M2M100Tokenizer
M2M100Tokenizer 類用於為 M2M100(“多對多”)模型進行文字分詞。
M2M100 是一個多語言編碼器-解碼器(seq-to-seq)模型,為多對多(Many-to-Many)多語言翻譯任務而訓練。它在這篇論文中被提出,並首次在這個程式碼庫中釋出。
有關支援的語言列表(及其語言程式碼),
型別: tokenizers 的靜態類
另見: https://huggingface.co/facebook/m2m100_418M#languages-covered
m2M100Tokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>
用於為 M2M100Tokenizer 構建翻譯輸入的輔助函式。
型別: M2M100Tokenizer 的例項方法
返回: Object - 傳遞給模型的物件。
| 引數量 | 型別 | 描述 |
|---|---|---|
| raw_inputs | string | Array<string> | 要分詞的文字。 |
| tokenizer_options | Object | 傳送給分詞器的選項 |
| generate_kwargs | Object | 生成選項。 |
tokenizers.WhisperTokenizer ⇐ <code> PreTrainedTokenizer </code>
WhisperTokenizer 分詞器
型別: tokenizers 的靜態類
繼承自: PreTrainedTokenizer
- .WhisperTokenizer ⇐
PreTrainedTokenizer
whisperTokenizer._decode_asr(sequences, options) ⇒ <code> * </code>
解碼自動語音識別(ASR)序列。
型別: WhisperTokenizer 的例項方法
返回: * - 解碼後的序列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| sequences | * | 要解碼的序列。 |
| 選項 | Object | 用於解碼的選項。 |
whisperTokenizer.decode() : <code> * </code>
型別: WhisperTokenizer 的例項方法
tokenizers.MarianTokenizer
型別: tokenizers 的靜態類
待辦
- 此模型尚不受 Hugging Face 的“fast”分詞器庫(https://github.com/huggingface/tokenizers)支援。因此,此實現(基於 fast tokenizers)可能會產生輕微不準確的結果。
new MarianTokenizer(tokenizerJSON, tokenizerConfig)
建立一個新的 MarianTokenizer 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokenizerJSON | Object | 分詞器的 JSON。 |
| tokenizerConfig | Object | 分詞器的配置。 |
marianTokenizer._encode_text(text) ⇒ <code> Array </code>
編碼單個文字。必須重寫此方法,因為在使用 sentencepiece 模型編碼之前,必須移除語言程式碼。
型別: MarianTokenizer 的例項方法
返回: Array - 編碼後的詞元。
另見: https://github.com/huggingface/transformers/blob/12d51db243a00726a548a43cc333390ebae731e3/src/transformers/models/marian/tokenization_marian.py#L204-L213
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | string | null | 要編碼的文字。 |
tokenizers.AutoTokenizer
這是一個輔助類,用於透過 from_pretrained 函式例項化預訓練的分詞器。所選擇的分詞器類由分詞器配置中指定的型別決定。
型別: tokenizers 的靜態類
- .AutoTokenizer
new AutoTokenizer().from_pretrained(pretrained_model_name_or_path, options)⇒Promise.<PreTrainedTokenizer>
new AutoTokenizer()
示例
const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');AutoTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>
從一個預訓練模型例項化庫中的一個分詞器類。
要例項化的分詞器類是根據配置物件(作為引數傳入或從 pretrained_model_name_or_path 載入)的 tokenizer_class 屬性來選擇的。
型別: AutoTokenizer 的靜態方法
返回: Promise.<PreTrainedTokenizer> - PreTrainedTokenizer 類的一個新例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| pretrained_model_name_or_path | 字串 | 預訓練模型的名稱或路徑。可以是
|
| 選項 | PretrainedTokenizerOptions | 載入分詞器的其他選項。 |
tokenizers.is_chinese_char(cp) ⇒ <code> boolean </code>
檢查給定的 Unicode 碼點是否表示一個 CJK(中文、日文或韓文)字元。
“中文字元”被定義為 CJK Unicode 區塊中的任何字元:https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block)
請注意,儘管其名稱如此,CJK Unicode 區塊並不包含所有的日文和韓文字元。現代韓文的諺文字母位於一個不同的區塊,日文的平假名和片假名也是如此。這些字母表用於書寫以空格分隔的單詞,因此它們不被特殊處理,而是像所有其他語言一樣處理。
型別: tokenizers 的靜態方法
返回: boolean - 如果碼點表示一個 CJK 字元,則為 True,否則為 false。
| 引數量 | 型別 | 描述 |
|---|---|---|
| cp | number | bigint | 要檢查的 Unicode 碼點。 |
tokenizers~AddedToken
表示使用者在現有模型詞彙表之上新增的詞元。可以配置 AddedToken 以指定它們在各種情況下的行為,例如
- 它們是否應僅匹配單個單詞
- 是否包含其左側或右側的任何空白
型別: tokenizers 的內部類
new AddedToken(config)
建立一個新的 AddedToken 例項。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| config | Object | 新增的詞元的配置物件。 | |
| config.content | 字串 | 新增的詞元的內容。 | |
| config.id | 數字 | 新增的詞元的 ID。 | |
| [config.single_word] | boolean | false | 此詞元是否必須是單個單詞,或者可以拆分單詞。 |
| [config.lstrip] | boolean | false | 此詞元是否應去除其左側的空白。 |
| [config.rstrip] | boolean | false | 此詞元是否應去除其右側的空白。 |
| [config.normalized] | boolean | false | 此詞元是否應被歸一化。 |
| [config.special] | boolean | false | 此詞元是否是特殊詞元。 |
tokenizers~WordPieceTokenizer ⇐ <code> TokenizerModel </code>
TokenizerModel 的一個子類,它使用 WordPiece 編碼來編碼詞元。
型別: tokenizers 的內部類
繼承自: TokenizerModel
- ~WordPieceTokenizer ⇐
TokenizerModelnew WordPieceTokenizer(config).tokens_to_ids:Map.<string, number>.unk_token_id:number.unk_token:string.max_input_chars_per_word:number.vocab:Array.<string>.encode(tokens)⇒Array.<string>
new WordPieceTokenizer(config)
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| config | Object | 配置物件。 | |
| config.vocab | Object | 詞元到 ID 的對映。 | |
| config.unk_token | 字串 | 未知詞元字串。 | |
| config.continuing_subword_prefix | 字串 | 用於連續子詞的字首。 | |
| [config.max_input_chars_per_word] | 數字 | 100 | 每個單詞的最大字元數。 |
wordPieceTokenizer.tokens_to_ids : <code> Map. < string, number > </code>
詞元到 ID 的對映。
型別: WordPieceTokenizer 的例項屬性
wordPieceTokenizer.unk_token_id : <code> number </code>
未知詞元的 ID。
型別: WordPieceTokenizer 的例項屬性
wordPieceTokenizer.unk_token : <code> string </code>
未知詞元字串。
型別: WordPieceTokenizer 的例項屬性
wordPieceTokenizer.max_input_chars_per_word : <code> number </code>
每個單詞允許的最大字元數。
型別: WordPieceTokenizer 的例項屬性
wordPieceTokenizer.vocab : <code> Array. < string > </code>
一個詞元陣列。
型別: WordPieceTokenizer 的例項屬性
wordPieceTokenizer.encode(tokens) ⇒ <code> Array. < string > </code>
使用 WordPiece 編碼對一個詞元陣列進行編碼。
型別: WordPieceTokenizer 的例項方法
返回: Array.<string> - 一個編碼後的詞元陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 要編碼的詞元。 |
tokenizers~Unigram ⇐ <code> TokenizerModel </code>
代表 Unigram 分詞器模型的類。
型別: tokenizers 的內部類
繼承自: TokenizerModel
- ~Unigram ⇐
TokenizerModelnew Unigram(config, moreConfig).scores:Array.<number>.populateNodes(lattice).tokenize(normalized)⇒Array.<string>.encode(tokens)⇒Array.<string>
new Unigram(config, moreConfig)
建立一個新的 Unigram 分詞器模型。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | Unigram 模型的配置物件。 |
| config.unk_id | 數字 | 未知詞元的 ID |
| config.vocab | * | 一個表示詞元到分數對映的二維陣列。 |
| moreConfig | Object | Unigram 模型的附加配置物件。 |
unigram.scores : <code> Array. < number > </code>
型別: Unigram 的例項屬性
unigram.populateNodes(lattice)
填充晶格節點。
型別: Unigram 的例項方法
| 引數量 | 型別 | 描述 |
|---|---|---|
| lattice | TokenLattice | 要用節點填充的詞元晶格。 |
unigram.tokenize(normalized) ⇒ <code> Array. < string > </code>
使用 unigram 模型將詞元陣列編碼為子詞元陣列。
型別: Unigram 的例項方法
返回: Array.<string> - 使用 unigram 模型對輸入詞元進行編碼後得到的子詞元陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| normalized | 字串 | 歸一化後的字串。 |
unigram.encode(tokens) ⇒ <code> Array. < string > </code>
使用 Unigram 編碼對一個詞元陣列進行編碼。
型別: Unigram 的例項方法
返回: Array.<string> - 一個編碼後的詞元陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 要編碼的詞元。 |
tokenizers~BPE ⇐ <code> TokenizerModel </code>
用於將文字編碼為位元組對編碼(BPE)詞元的 BPE 類。
型別: tokenizers 的內部類
繼承自: TokenizerModel
- ~BPE ⇐
TokenizerModelnew BPE(config).tokens_to_ids:Map.<string, number>.merges:*.config.merges:*
.max_length_to_cache.cache_capacity.clear_cache().bpe(token)⇒Array.<string>.encode(tokens)⇒Array.<string>
new BPE(config)
建立一個 BPE 例項。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| config | Object | BPE 的配置物件。 | |
| config.vocab | Object | 詞元到 ID 的對映。 | |
| config.merges | * | 一個由字串表示的 BPE 合併規則陣列。 | |
| config.unk_token | 字串 | 用於詞彙表外單詞的未知詞元。 | |
| config.end_of_word_suffix | 字串 | 在每個單詞末尾放置的字尾。 | |
| [config.continuing_subword_suffix] | 字串 | 在單詞之間插入的字尾。 | |
| [config.byte_fallback] | boolean | false | 是否使用 spm 的位元組回退技巧(預設為 False) |
| [config.ignore_merges] | boolean | false | 在使用合併規則之前,是否先將詞元與詞彙表進行匹配。 |
bpE.tokens_to_ids : <code> Map. < string, number > </code>
型別: BPE 的例項屬性
bpE.merges : <code> * </code>
型別: BPE 的例項屬性
merges.config.merges : <code> * </code>
型別: merges 的靜態屬性
bpE.max_length_to_cache
模型中應快取的最大長度。太長的字串快取命中的機會很小。
型別: BPE 的例項屬性
bpE.cache_capacity
BPE 內部快取的預設容量。
型別: BPE 的例項屬性
bpE.clear_cache()
清除快取。
型別: BPE 的例項方法
bpE.bpe(token) ⇒ <code> Array. < string > </code>
對給定的詞元應用位元組對編碼(BPE)。高效的基於堆的優先佇列實現改編自 https://github.com/belladoreai/llama-tokenizer-js。
型別: BPE 的例項方法
返回: Array.<string> - BPE 編碼後的詞元。
| 引數量 | 型別 | 描述 |
|---|---|---|
| token | 字串 | 要編碼的詞元。 |
bpE.encode(tokens) ⇒ <code> Array. < string > </code>
使用 BPE 演算法對輸入的詞元序列進行編碼,並返回生成的子詞詞元。
型別: BPE 的例項方法
返回: Array.<string> - 對輸入詞元序列應用 BPE 演算法後得到的子詞詞元。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 要編碼的輸入詞元序列。 |
tokenizers~LegacyTokenizerModel
用於僅有詞彙表的分詞器的傳統分詞器類。
型別: tokenizers 的內部類
- ~LegacyTokenizerModel
new LegacyTokenizerModel(config, moreConfig).tokens_to_ids:Map.<string, number>
new LegacyTokenizerModel(config, moreConfig)
建立一個 LegacyTokenizerModel 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | LegacyTokenizerModel 的配置物件。 |
| config.vocab | Object | 一個(可能是巢狀的)詞元到 ID 的對映。 |
| moreConfig | Object | LegacyTokenizerModel 模型的附加配置物件。 |
legacyTokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>
型別: LegacyTokenizerModel 的例項屬性
tokenizers~Normalizer
文字歸一化的基類。
型別: tokenizers 的內部抽象類
- ~Normalizer
new Normalizer(config)- 例項
.normalize(text)⇒string._call(text)⇒string
- 靜態
.fromConfig(config)⇒Normalizer
new Normalizer(config)
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 歸一化器的配置物件。 |
normalizer.normalize(text) ⇒ <code> string </code>
歸一化輸入文字。
型別: Normalizer 的例項抽象方法
返回: string - 歸一化後的文字。
丟擲:
Error如果此方法未在子類中實現。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的文字。 |
normalizer._call(text) ⇒ <code> string </code>
Normalizer#normalize 的別名。
型別: Normalizer 的例項方法
返回: string - 歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的文字。 |
Normalizer.fromConfig(config) ⇒ <code> Normalizer </code>
用於從配置物件建立歸一化器的工廠方法。
型別: Normalizer 的靜態方法
返回: Normalizer - 一個歸一化器物件。
丟擲:
Error如果在配置中指定了未知的歸一化器型別。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 歸一化器的配置物件。 |
tokenizers~Replace ⇐ <code> Normalizer </code>
將模式的出現替換為給定字串或正則表示式的替換歸一化器。
型別: tokenizers 的內部類
繼承自: Normalizer
replace.normalize(text) ⇒ <code> string </code>
透過將模式替換為內容來歸一化輸入文字。
型別: Replace 的例項方法
返回: string - 將模式替換為內容後歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的輸入文字。 |
tokenizers~UnicodeNormalizer ⇐ <code> Normalizer </code>
對輸入文字應用 Unicode 歸一化的歸一化器。
型別: tokenizers 的內部抽象類
繼承自: Normalizer
- ~UnicodeNormalizer ⇐
Normalizer.form:string.normalize(text)⇒string
unicodeNormalizer.form : <code> string </code>
要應用的 Unicode 歸一化形式。應為以下之一:'NFC'、'NFD'、'NFKC' 或 'NFKD'。
型別: UnicodeNormalizer 的例項屬性
unicodeNormalizer.normalize(text) ⇒ <code> string </code>
透過應用 Unicode 歸一化來歸一化輸入文字。
型別: UnicodeNormalizer 的例項方法
返回: string - 歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的輸入文字。 |
tokenizers~NFC ⇐ <code> UnicodeNormalizer </code>
將 Unicode 正規化 C (NFC) 應用於輸入文字的規範器。先進行規範分解,然後進行規範組合。
型別: tokenizers 的內部類
擴充套件: UnicodeNormalizer
tokenizers~NFD ⇐ <code> UnicodeNormalizer </code>
將 Unicode 正規化 D (NFD) 應用於輸入文字的規範器。規範分解。
型別: tokenizers 的內部類
擴充套件: UnicodeNormalizer
tokenizers~NFKC ⇐ <code> UnicodeNormalizer </code>
將 Unicode 正規化 KC (NFKC) 應用於輸入文字的規範器。先進行相容分解,然後進行規範組合。
型別: tokenizers 的內部類
擴充套件: UnicodeNormalizer
tokenizers~NFKD ⇐ <code> UnicodeNormalizer </code>
將 Unicode 正規化 KD (NFKD) 應用於輸入文字的規範器。相容分解。
型別: tokenizers 的內部類
擴充套件: UnicodeNormalizer
tokenizers~StripNormalizer
一個從輸入文字中去除前導和/或尾隨空白字元的規範器。
型別: tokenizers 的內部類
stripNormalizer.normalize(text) ⇒ <code> string </code>
從輸入文字中去除前導和/或尾隨空白字元。
類別: StripNormalizer 的例項方法
返回: string - 歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 輸入文字。 |
tokenizers~StripAccents ⇐ <code> Normalizer </code>
StripAccents 規範器會移除文字中的所有重音符號。
型別: tokenizers 的內部類
繼承自: Normalizer
stripAccents.normalize(text) ⇒ <code> string </code>
移除文字中的所有重音符號。
類別: StripAccents 的例項方法
返回: string - 沒有重音符號的規範化文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 輸入文字。 |
tokenizers~Lowercase ⇐ <code> Normalizer </code>
將輸入字串轉換為小寫的規範器。
型別: tokenizers 的內部類
繼承自: Normalizer
lowercase.normalize(text) ⇒ <code> string </code>
將輸入字串轉換為小寫。
類別: Lowercase 的例項方法
返回: string - 歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的文字。 |
tokenizers~Prepend ⇐ <code> Normalizer </code>
在輸入字串前新增一個字串的規範器。
型別: tokenizers 的內部類
繼承自: Normalizer
prepend.normalize(text) ⇒ <code> string </code>
在輸入字串前新增指定內容。
類別: Prepend 的例項方法
返回: string - 歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的文字。 |
tokenizers~NormalizerSequence ⇐ <code> Normalizer </code>
一個按順序應用一系列規範器的規範器。
型別: tokenizers 的內部類
繼承自: Normalizer
- ~NormalizerSequence ⇐
Normalizer
new NormalizerSequence(config)
建立一個新的 NormalizerSequence 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
| config.normalizers | Array.<Object> | 一個包含規範器配置物件的陣列。 |
normalizerSequence.normalize(text) ⇒ <code> string </code>
將一系列規範器應用於輸入文字。
類別: NormalizerSequence 的例項方法
返回: string - 歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的文字。 |
tokenizers~BertNormalizer ⇐ <code> Normalizer </code>
表示 BERT 分詞中使用的規範器的類。
型別: tokenizers 的內部類
繼承自: Normalizer
- ~BertNormalizer ⇐
Normalizer._tokenize_chinese_chars(text)⇒string.stripAccents(text)⇒string.normalize(text)⇒string
bertNormalizer._tokenize_chinese_chars(text) ⇒ <code> string </code>
在輸入文字中的任何 CJK(中文、日文或韓文)字元周圍新增空格。
類別: BertNormalizer 的例項方法
返回: string - 在 CJK 字元周圍添加了空格的分詞後文本。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要進行分詞的輸入文字。 |
bertNormalizer.stripAccents(text) ⇒ <code> string </code>
從給定文字中去除重音符號。
類別: BertNormalizer 的例項方法
返回: string - 移除了重音符號的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要去除重音符號的文字。 |
bertNormalizer.normalize(text) ⇒ <code> string </code>
根據配置對給定文字進行規範化。
類別: BertNormalizer 的例項方法
返回: string - 歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的文字。 |
tokenizers~PreTokenizer ⇐ <code> Callable </code>
一個可呼叫的類,表示分詞中使用的預分詞器。子類應實現 pre_tokenize_text 方法來定義特定的預分詞邏輯。
型別: tokenizers 的內部類
繼承自: Callable
- ~PreTokenizer ⇐
Callable- 例項
.pre_tokenize_text(text, [options])⇒Array.<string>.pre_tokenize(text, [options])⇒Array.<string>._call(text, [options])⇒Array.<string>
- 靜態
.fromConfig(config)⇒PreTokenizer
- 例項
preTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
子類應實現此方法來定義特定的預分詞邏輯。
類別: PreTokenizer 的例項抽象方法
返回: Array.<string> - 預分詞後的文字。
丟擲:
Error如果方法未在子類中實現。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要進行預分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
preTokenizer.pre_tokenize(text, [options]) ⇒ <code> Array. < string > </code>
將給定文字分詞為預分詞單元。
類別: PreTokenizer 的例項方法
返回: Array.<string> - 一個包含預分詞單元的陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | string | Array<string> | 要進行預分詞的文字或文字陣列。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
preTokenizer._call(text, [options]) ⇒ <code> Array. < string > </code>
PreTokenizer#pre_tokenize 的別名。
類別: PreTokenizer 的例項方法
重寫: _call
返回: Array.<string> - 一個包含預分詞單元的陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | string | Array<string> | 要進行預分詞的文字或文字陣列。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
PreTokenizer.fromConfig(config) ⇒ <code> PreTokenizer </code>
工廠方法,根據提供的配置返回 PreTokenizer 子類的例項。
類別: PreTokenizer 的靜態方法
返回: PreTokenizer - PreTokenizer 子類的例項。
丟擲:
Error如果提供的配置物件不對應任何已知的預分詞器。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 預分詞器的配置物件。 |
tokenizers~BertPreTokenizer ⇐ <code> PreTokenizer </code>
型別: tokenizers 的內部類
擴充套件: PreTokenizer
- ~BertPreTokenizer ⇐
PreTokenizernew BertPreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
new BertPreTokenizer(config)
一個預分詞器,使用類似於 BERT 原始實現中使用的基本分詞方案將文字分割成詞片段。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
bertPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
使用 BERT 預分詞方案對單個文字進行分詞。
類別: BertPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~ByteLevelPreTokenizer ⇐ <code> PreTokenizer </code>
一個將文字分割成位元組對編碼 (BPE) 子詞的預分詞器。
型別: tokenizers 的內部類
擴充套件: PreTokenizer
- ~ByteLevelPreTokenizer ⇐
PreTokenizernew ByteLevelPreTokenizer(config).add_prefix_space:boolean.trim_offsets:boolean.use_regex:boolean.pre_tokenize_text(text, [options])⇒Array.<string>
new ByteLevelPreTokenizer(config)
建立 ByteLevelPreTokenizer 類的新例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
byteLevelPreTokenizer.add_prefix_space : <code> boolean </code>
是否在第一個單詞前新增一個前導空格。這使得可以像處理其他單詞一樣處理第一個單詞。
類別: ByteLevelPreTokenizer 的例項屬性
byteLevelPreTokenizer.trim_offsets : <code> boolean </code>
後處理步驟是否應該修剪偏移量以避免包含空白字元。
類別: ByteLevelPreTokenizer 的例項屬性
待辦
- 在預分詞步驟中使用此選項。
byteLevelPreTokenizer.use_regex : <code> boolean </code>
是否使用標準的 GPT2 正則表示式進行空白字元分割。如果你想使用自己的分割方式,請將其設定為 False。預設為 true。
類別: ByteLevelPreTokenizer 的例項屬性
byteLevelPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
使用位元組級分詞法對單段文字進行分詞。
類別: ByteLevelPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~SplitPreTokenizer ⇐ <code> PreTokenizer </code>
使用給定的模式分割文字。
型別: tokenizers 的內部類
擴充套件: PreTokenizer
- ~SplitPreTokenizer ⇐
PreTokenizernew SplitPreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
new SplitPreTokenizer(config)
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 預分詞器的配置選項。 |
| config.pattern | Object | 用於分割文字的模式。可以是一個字串或一個正則表示式物件。 |
| config.pattern.String | string | undefined | 用於分割的字串。僅當模式是字串時定義。 |
| config.pattern.Regex | string | undefined | 用於分割的正則表示式。僅當模式是正則表示式時定義。 |
| config.behavior | SplitDelimiterBehavior | 分割時使用的行為。 |
| config.invert | boolean | 是分割(invert=false)還是匹配(invert=true)模式。 |
splitPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過使用給定的模式分割文字來進行分詞。
類別: SplitPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~PunctuationPreTokenizer ⇐ <code> PreTokenizer </code>
根據標點符號分割文字。
型別: tokenizers 的內部類
擴充套件: PreTokenizer
- ~PunctuationPreTokenizer ⇐
PreTokenizernew PunctuationPreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
new PunctuationPreTokenizer(config)
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 預分詞器的配置選項。 |
| config.behavior | SplitDelimiterBehavior | 分割時使用的行為。 |
punctuationPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過使用給定的模式分割文字來進行分詞。
類別: PunctuationPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~DigitsPreTokenizer ⇐ <code> PreTokenizer </code>
根據數字分割文字。
型別: tokenizers 的內部類
擴充套件: PreTokenizer
- ~DigitsPreTokenizer ⇐
PreTokenizernew DigitsPreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
new DigitsPreTokenizer(config)
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 預分詞器的配置選項。 |
| config.individual_digits | boolean | 是否按單個數字進行分割。 |
digitsPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過使用給定的模式分割文字來進行分詞。
類別: DigitsPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~PostProcessor ⇐ <code> Callable </code>
型別: tokenizers 的內部類
繼承自: Callable
- ~PostProcessor ⇐
Callablenew PostProcessor(config)- 例項
.post_process(tokens, ...args)⇒PostProcessedOutput._call(tokens, ...args)⇒PostProcessedOutput
- 靜態
.fromConfig(config)⇒PostProcessor
new PostProcessor(config)
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 後處理器的配置。 |
postProcessor.post_process(tokens, ...args) ⇒ <code> PostProcessedOutput </code>
需要在子類中實現的方法,用於對給定的詞元應用後處理。
類別: PostProcessor 的例項方法
返回: PostProcessedOutput - 後處理後的詞元。
丟擲:
Error如果方法未在子類中實現。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | 陣列 | 要進行後處理的輸入詞元。 |
| ...args | * | 後處理邏輯所需的附加引數。 |
postProcessor._call(tokens, ...args) ⇒ <code> PostProcessedOutput </code>
PostProcessor#post_process 的別名。
類別: PostProcessor 的例項方法
重寫: _call
返回: PostProcessedOutput - 後處理後的詞元。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | 陣列 | 要進行後處理的文字或文字陣列。 |
| ...args | * | 後處理邏輯所需的附加引數。 |
PostProcessor.fromConfig(config) ⇒ <code> PostProcessor </code>
用於從配置物件建立 PostProcessor 物件的工廠方法。
類別: PostProcessor 的靜態方法
返回: PostProcessor - 從給定配置建立的 PostProcessor 物件。
丟擲:
Error如果遇到未知的 PostProcessor 型別。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 表示 PostProcessor 的配置物件。 |
tokenizers~BertProcessing
一個在輸入內容的開頭和結尾新增特殊詞元的後處理器。
型別: tokenizers 的內部類
- ~BertProcessing
new BertProcessing(config).post_process(tokens, [tokens_pair])⇒PostProcessedOutput
new BertProcessing(config)
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 後處理器的配置。 |
| config.cls | Array.<string> | 要新增到輸入內容開頭的特殊詞元。 |
| config.sep | Array.<string> | 要新增到輸入內容結尾的特殊詞元。 |
bertProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>
將特殊詞元新增到輸入內容的開頭和結尾。
類別: BertProcessing 的例項方法
返回: PostProcessedOutput - 在開頭和結尾添加了特殊詞元的後處理後詞元。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| tokens | Array.<string> | 輸入詞元。 | |
| [tokens_pair] | Array.<string> | | 可選的第二組輸入詞元。 |
tokenizers~TemplateProcessing ⇐ <code> PostProcessor </code>
用實際詞元替換模板中特殊詞元的後處理器。
型別: tokenizers 的內部類
擴充套件: PostProcessor
- ~TemplateProcessing ⇐
PostProcessornew TemplateProcessing(config).post_process(tokens, [tokens_pair])⇒PostProcessedOutput
new TemplateProcessing(config)
建立一個新的 TemplateProcessing 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 後處理器的配置選項。 |
| config.single | 陣列 | 單個詞元序列的模板。 |
| config.pair | 陣列 | 一對詞元序列的模板。 |
templateProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>
用實際詞元替換模板中的特殊詞元。
類別: TemplateProcessing 的例項方法
返回: PostProcessedOutput - 一個物件,包含用實際詞元替換了特殊詞元的詞元列表。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| tokens | Array.<string> | 第一個序列的詞元列表。 | |
| [tokens_pair] | Array.<string> | | 第二個序列的詞元列表(可選)。 |
tokenizers~ByteLevelPostProcessor ⇐ <code> PostProcessor </code>
一個按原樣返回給定詞元的後處理器。
型別: tokenizers 的內部類
擴充套件: PostProcessor
byteLevelPostProcessor.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>
對給定的詞元進行後處理。
類別: ByteLevelPostProcessor 的例項方法
返回: PostProcessedOutput - 包含後處理後詞元的物件。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| tokens | Array.<string> | 第一個序列的詞元列表。 | |
| [tokens_pair] | Array.<string> | | 第二個序列的詞元列表(可選)。 |
tokenizers~PostProcessorSequence
一個按順序應用多個後處理器的後處理器。
型別: tokenizers 的內部類
- ~PostProcessorSequence
new PostProcessorSequence(config).post_process(tokens, [tokens_pair])⇒PostProcessedOutput
new PostProcessorSequence(config)
建立一個新的 PostProcessorSequence 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
| config.processors | Array.<Object> | 要應用的後處理器列表。 |
postProcessorSequence.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>
對給定的詞元進行後處理。
類別: PostProcessorSequence 的例項方法
返回: PostProcessedOutput - 包含後處理後詞元的物件。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| tokens | Array.<string> | 第一個序列的詞元列表。 | |
| [tokens_pair] | Array.<string> | | 第二個序列的詞元列表(可選)。 |
tokenizers~Decoder ⇐ <code> Callable </code>
詞元解碼器的基類。
型別: tokenizers 的內部類
繼承自: Callable
- ~Decoder ⇐
Callablenew Decoder(config)- 例項
.added_tokens:Array.<AddedToken>._call(tokens)⇒string.decode(tokens)⇒string.decode_chain(tokens)⇒Array.<string>
- 靜態
.fromConfig(config)⇒Decoder
new Decoder(config)
建立 Decoder 的例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
decoder.added_tokens : <code> Array. < AddedToken > </code>
類別: Decoder 的例項屬性
decoder._call(tokens) ⇒ <code> string </code>
呼叫 decode 方法。
類別: Decoder 的例項方法
重寫: _call
返回: string - 解碼後的字串。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 令牌列表。 |
decoder.decode(tokens) ⇒ <code> string </code>
解碼一個詞元列表。
類別: Decoder 的例項方法
返回: string - 解碼後的字串。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 令牌列表。 |
decoder.decode_chain(tokens) ⇒ <code> Array. < string > </code>
將解碼器應用於一個詞元列表。
類別: Decoder 的例項方法
返回: Array.<string> - 解碼後的詞元列表。
丟擲:
Error如果 `decode_chain` 方法未在子類中實現。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 令牌列表。 |
Decoder.fromConfig(config) ⇒ <code> Decoder </code>
根據提供的配置建立一個解碼器例項。
類別: Decoder 的靜態方法
返回: Decoder - 一個解碼器例項。
丟擲:
- 如果提供了未知的解碼器型別,則返回
Error。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
tokenizers~FuseDecoder
Fuse 僅將所有分詞(token)融合成一個大字串。這通常是解碼的最後一步,但這個解碼器的存在是為了以防某些解碼器需要在此步驟之後進行操作。
型別: tokenizers 的內部類
fuseDecoder.decode_chain() : <code> * </code>
類別: FuseDecoder 的例項方法
tokenizers~WordPieceDecoder ⇐ <code> Decoder </code>
一個將 WordPiece 分詞列表解碼為單個字串的解碼器。
型別: tokenizers 的內部類
繼承自: Decoder
- ~WordPieceDecoder ⇐
Decoder
new WordPieceDecoder(config)
建立一個新的 WordPieceDecoder 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
| config.prefix | 字串 | 用於 WordPiece 編碼的字首。 |
| config.cleanup | boolean | 是否清理解碼後的字串。 |
wordPieceDecoder.decode_chain() : <code> * </code>
類別: WordPieceDecoder 的例項方法
tokenizers~ByteLevelDecoder ⇐ <code> Decoder </code>
用於分詞輸出的位元組級解碼器。繼承自 Decoder 類。
型別: tokenizers 的內部類
繼承自: Decoder
- ~ByteLevelDecoder ⇐
Decoder
new ByteLevelDecoder(config)
建立一個 ByteLevelDecoder 物件。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
byteLevelDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>
透過解碼每個位元組將分詞陣列轉換為字串。
類別: ByteLevelDecoder 的例項方法
返回: string - 解碼後的字串。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 需要解碼的分詞陣列。 |
byteLevelDecoder.decode_chain() : <code> * </code>
類別: ByteLevelDecoder 的例項方法
tokenizers~CTCDecoder
CTC (Connectionist Temporal Classification) 解碼器。請參閱 https://github.com/huggingface/tokenizers/blob/bb38f390a61883fc2f29d659af696f428d1cda6b/tokenizers/src/decoders/ctc.rs
型別: tokenizers 的內部類
ctcDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>
將連線主義時間分類 (CTC) 輸出的分詞轉換為單個字串。
類別: CTCDecoder 的例項方法
返回: string - 解碼後的字串。
| 引數量 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 需要解碼的分詞陣列。 |
ctcDecoder.decode_chain() : <code> * </code>
類別: CTCDecoder 的例項方法
tokenizers~DecoderSequence ⇐ <code> Decoder </code>
應用一系列解碼器。
型別: tokenizers 的內部類
繼承自: Decoder
- ~DecoderSequence ⇐
Decoder
new DecoderSequence(config)
建立一個新的 DecoderSequence 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 配置物件。 |
| config.decoders | Array.<Object> | 要應用的解碼器列表。 |
decoderSequence.decode_chain() : <code> * </code>
類別: DecoderSequence 的例項方法
tokenizers~MetaspacePreTokenizer ⇐ <code> PreTokenizer </code>
此預處理器(PreTokenizer)用給定的替換字元替換空格,如果需要則新增字首空格,並返回一個分詞列表。
型別: tokenizers 的內部類
擴充套件: PreTokenizer
- ~MetaspacePreTokenizer ⇐
PreTokenizernew MetaspacePreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
new MetaspacePreTokenizer(config)
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| config | Object | MetaspacePreTokenizer 的配置物件。 | |
| config.add_prefix_space | boolean | 是否在第一個分詞前新增字首空格。 | |
| config.replacement | 字串 | 用於替換空格的字元。 | |
| [config.str_rep] | 字串 | “config.replacement” | 替換字元的可選字串表示。 |
| [config.prepend_scheme] | 'first' | 'never' | 'always' | 'always' | metaspace 前置方案。 |
metaspacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
此方法接收一個字串,用替換字元替換空格,如果需要則新增字首空格,並返回一個新的分詞列表。
類別: MetaspacePreTokenizer 的例項方法
返回: Array.<string> - 一個新的預分詞列表。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要進行預分詞的文字。 |
| [options] | Object | 預分詞的選項。 |
| [options.section_index] | 數字 | 要進行預分詞的部分的索引。 |
tokenizers~MetaspaceDecoder ⇐ <code> Decoder </code>
MetaspaceDecoder 類繼承自 Decoder 類,用於解碼 Metaspace 分詞結果。
型別: tokenizers 的內部類
繼承自: Decoder
- ~MetaspaceDecoder ⇐
Decoder
new MetaspaceDecoder(config)
構造一個新的 MetaspaceDecoder 物件。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | MetaspaceDecoder 的配置物件。 |
| config.add_prefix_space | boolean | 是否在解碼後的字串前新增字首空格。 |
| config.replacement | 字串 | 用於替換空格的字串。 |
metaspaceDecoder.decode_chain() : <code> * </code>
類別: MetaspaceDecoder 的例項方法
tokenizers~Precompiled ⇐ <code> Normalizer </code>
一個應用預編譯字元對映(charsmap)的規範化器。這對於在 C++ 中應用複雜的規範化並將其暴露給 JavaScript 非常有用。
型別: tokenizers 的內部類
繼承自: Normalizer
- ~Precompiled ⇐
Normalizernew Precompiled(config).normalize(text)⇒string
new Precompiled(config)
建立一個新的 Precompiled 規範化器例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | Precompiled 規範化器的配置物件。 |
| config.precompiled_charsmap | Object | 預編譯的字元對映物件。 |
precompiled.normalize(text) ⇒ <code> string </code>
透過應用預編譯的字元對映來規範化給定的文字。
類別: Precompiled 的例項方法
返回: string - 歸一化後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要歸一化的文字。 |
tokenizers~PreTokenizerSequence ⇐ <code> PreTokenizer </code>
一個對輸入文字應用一系列預處理器(pre-tokenizer)的預處理器。
型別: tokenizers 的內部類
擴充套件: PreTokenizer
- ~PreTokenizerSequence ⇐
PreTokenizernew PreTokenizerSequence(config).pre_tokenize_text(text, [options])⇒Array.<string>
new PreTokenizerSequence(config)
建立一個 PreTokenizerSequence 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 預處理器序列的配置物件。 |
| config.pretokenizers | Array.<Object> | 一個預處理器配置的陣列。 |
preTokenizerSequence.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
依次將序列中的每個預處理器應用於輸入文字。
類別: PreTokenizerSequence 的例項方法
返回: Array.<string> - 預分詞後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要進行預分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~WhitespacePreTokenizer
按詞邊界進行分割(使用以下正則表示式:\w+|[^\w\s]+)。
型別: tokenizers 的內部類
- ~WhitespacePreTokenizer
new WhitespacePreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
new WhitespacePreTokenizer(config)
建立一個 WhitespacePreTokenizer 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 預處理器的配置物件。 |
whitespacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過按詞邊界分割輸入文字來進行預分詞。
類別: WhitespacePreTokenizer 的例項方法
返回: Array.<string> - 透過按空白字元分割輸入文字而產生的分詞陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要進行預分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~WhitespaceSplit ⇐ <code> PreTokenizer </code>
透過空白字元將一段文字分割成單個分詞。
型別: tokenizers 的內部類
擴充套件: PreTokenizer
- ~WhitespaceSplit ⇐
PreTokenizernew WhitespaceSplit(config).pre_tokenize_text(text, [options])⇒Array.<string>
new WhitespaceSplit(config)
建立一個 WhitespaceSplit 例項。
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 預處理器的配置物件。 |
whitespaceSplit.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過按空白字元分割輸入文字來進行預分詞。
類別: WhitespaceSplit 的例項方法
返回: Array.<string> - 透過按空白字元分割輸入文字而產生的分詞陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要進行預分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~ReplacePreTokenizer
型別: tokenizers 的內部類
- ~ReplacePreTokenizer
new ReplacePreTokenizer(config).pre_tokenize_text(text, [options])⇒Array.<string>
new ReplacePreTokenizer(config)
| 引數量 | 型別 | 描述 |
|---|---|---|
| config | Object | 預分詞器的配置選項。 |
| config.pattern | Object | 用於分割文字的模式。可以是一個字串或一個正則表示式物件。 |
| config.content | 字串 | 用來替換模式的內容。 |
replacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>
透過替換某些字元來對輸入文字進行預分詞。
類別: ReplacePreTokenizer 的例項方法
返回: Array.<string> - 透過替換某些字元而產生的分詞陣列。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要進行預分詞的文字。 |
| [options] | Object | 預分詞邏輯的附加選項。 |
tokenizers~BYTES_TO_UNICODE ⇒ <code> Object </code>
返回 utf-8 位元組列表以及到 unicode 字串的對映。特別避免對映到 BPE 程式碼會出錯的空白/控制字元。
類別: tokenizers 的內部常量
返回: Object - 以 utf-8 位元組為鍵,unicode 字串為值的物件。
tokenizers~loadTokenizer(pretrained_model_name_or_path, options) ⇒ <code> Promise. < Array < any > > </code>
從指定路徑載入分詞器。
類別: tokenizers 的內部方法
返回: Promise.<Array<any>> - 一個解析後包含已載入分詞器資訊的 Promise。
| 引數量 | 型別 | 描述 |
|---|---|---|
| pretrained_model_name_or_path | 字串 | 分詞器目錄的路徑。 |
| 選項 | PretrainedTokenizerOptions | 載入分詞器的其他選項。 |
tokenizers~regexSplit(text, regex) ⇒ <code> Array. < string > </code>
一個輔助函式,用於根據正則表示式分割字串,但保留分隔符。這是必需的,因為 JavaScript 的 .split() 方法不保留分隔符,而將其包裝在捕獲組中會導致現有捕獲組出現問題(由於巢狀)。
類別: tokenizers 的內部方法
返回: Array.<string> - 分割後的字串。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要分割的文字。 |
| regex | RegExp | 用於分割的正則表示式。 |
tokenizers~createPattern(pattern, invert) ⇒ <code> RegExp </code> | <code> null </code>
從配置物件構造模式的輔助方法。
類別: tokenizers 的內部方法
返回: RegExp | null - 編譯後的模式。
| 引數量 | 型別 | 預設 | 描述 |
|---|---|---|---|
| pattern | Object | 模式物件。 | |
| 反轉 | boolean | true | 是否反轉模式。 |
tokenizers~objectToMap(obj) ⇒ <code> Map. < string, any > </code>
將物件轉換為 Map 的輔助函式。
類別: tokenizers 的內部方法
返回: Map.<string, any> - map。
| 引數量 | 型別 | 描述 |
|---|---|---|
| obj | Object | 要轉換的物件。 |
tokenizers~prepareTensorForDecode(tensor) ⇒ <code> Array. < number > </code>
在解碼前將張量轉換為列表的輔助函式。
類別: tokenizers 的內部方法
返回: Array.<number> - 列表形式的張量。
| 引數量 | 型別 | 描述 |
|---|---|---|
| 張量 | 張量 | 要轉換的張量。 |
tokenizers~clean_up_tokenization(text) ⇒ <code> string </code>
清理簡單的英文分詞產物,如標點前的空格和縮寫形式。
類別: tokenizers 的內部方法
返回: string - 清理後的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要清理的文字。 |
tokenizers~remove_accents(text) ⇒ <code> string </code>
從字串中移除重音符號的輔助函式。
類別: tokenizers 的內部方法
返回: string - 移除了重音符號的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要移除重音符號的文字。 |
tokenizers~lowercase_and_remove_accent(text) ⇒ <code> string </code>
將字串轉為小寫並移除重音符號的輔助函式。
類別: tokenizers 的內部方法
返回: string - 已轉為小寫並移除重音符號的文字。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要轉為小寫並移除重音符號的文字。 |
tokenizers~whitespace_split(text) ⇒ <code> Array. < string > </code>
按空白字元分割字串。
類別: tokenizers 的內部方法
返回: Array.<string> - 分割後的字串。
| 引數量 | 型別 | 描述 |
|---|---|---|
| text | 字串 | 要分割的文字。 |
tokenizers~PretrainedTokenizerOptions : <code> Object </code>
特定於分詞器的額外屬性。
類別: tokenizers 的內部 typedef
屬性
| 名稱 | 型別 | 預設 | 描述 |
|---|---|---|---|
| [legacy] | boolean | false | 是否應使用分詞器的 |
tokenizers~BPENode : <code> Object </code>
類別: tokenizers 的內部 typedef
屬性
| 名稱 | 型別 | 描述 |
|---|---|---|
| token | 字串 | 與節點關聯的分詞。 |
| bias | 數字 | 節點的位置偏差。 |
| [score] | 數字 | 節點的分數。 |
| [prev] | BPENode | 連結串列中的前一個節點。 |
| [next] | BPENode | 連結串列中的下一個節點。 |
tokenizers~SplitDelimiterBehavior : <code> ’ removed ’ </code> | <code> ’ isolated ’ </code> | <code> ’ mergedWithPrevious ’ </code> | <code> ’ mergedWithNext ’ </code> | <code> ’ contiguous ’ </code>
類別: tokenizers 的內部 typedef
tokenizers~PostProcessedOutput : <code> Object </code>
類別: tokenizers 的內部 typedef
屬性
| 名稱 | 型別 | 描述 |
|---|---|---|
| tokens | Array.<string> | 後處理器(post-processor)生成的分詞列表。 |
| [token_type_ids] | Array.<number> | 後處理器生成的分詞型別 ID 列表。 |
tokenizers~EncodingSingle : <code> Object </code>
類別: tokenizers 的內部 typedef
屬性
| 名稱 | 型別 | 描述 |
|---|---|---|
| input_ids | Array.<number> | 要輸入到模型中的分詞 ID 列表。 |
| attention_mask | Array.<number> | 要輸入到模型中的分詞型別 ID 列表 |
| [token_type_ids] | Array.<number> | 指定模型應關注哪些分詞的索引列表 |
tokenizers~Message : <code> Object </code>
類別: tokenizers 的內部 typedef
屬性
| 名稱 | 型別 | 描述 |
|---|---|---|
| 角色 | 字串 | 訊息的角色(例如,“user” 或 “assistant” 或 “system”)。 |
| 內容 | 字串 | 訊息的內容。 |
tokenizers~BatchEncoding : <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> Tensor </code>
儲存分詞器呼叫函式的輸出。
類別: tokenizers 的內部 typedef
屬性
| 名稱 | 型別 | 描述 |
|---|---|---|
| input_ids | BatchEncodingItem | 要輸入到模型中的分詞 ID 列表。 |
| attention_mask | BatchEncodingItem | 指定模型應關注哪些分詞的索引列表。 |
| [token_type_ids] | BatchEncodingItem | 要輸入到模型中的分詞型別 ID 列表。 |
< > 在 GitHub 上更新