Transformers.js 文件

分詞器

您正在檢視的是需要從原始碼安裝。如果你想使用常規的 npm 安裝,請檢視最新的穩定版本 (v3.0.0)。
Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

分詞器

分詞器用於為模型準備文字輸入。

示例: 建立一個 AutoTokenizer 並用它來對一個句子進行分詞。這將根據 tokenizer.json 中定義的分詞器型別自動檢測分詞器型別。

import { AutoTokenizer } from '@huggingface/transformers';

const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');
const { input_ids } = await tokenizer('I love transformers!');
// Tensor {
//   data: BigInt64Array(6) [101n, 1045n, 2293n, 19081n, 999n, 102n],
//   dims: [1, 6],
//   type: 'int64',
//   size: 6,
// }

tokenizers.TokenizerModel ⇐ <code> Callable </code>

分詞器模型的抽象基類。

型別: tokenizers 的靜態類
繼承自: Callable


new TokenizerModel(config)

建立一個新的 TokenizerModel 例項。

引數量型別描述
configObject

TokenizerModel 的配置物件。


tokenizerModel.vocab : <code> Array. < string > </code>

型別: TokenizerModel 的例項屬性


tokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>

詞元到 ID 的對映。

型別: TokenizerModel 的例項屬性


tokenizerModel.fuse_unk : <code> boolean </code>

編碼時是否合併未知詞元。預設為 false。

型別: TokenizerModel 的例項屬性


tokenizerModel._call(tokens) ⇒ <code> Array. < string > </code>

呼叫 TokenizerModel 例項的內部函式。

型別: TokenizerModel 的例項方法
重寫: _call
返回: Array.<string> - 編碼後的詞元。

引數量型別描述
tokensArray.<string>

要編碼的詞元。


tokenizerModel.encode(tokens) ⇒ <code> Array. < string > </code>

將詞元列表編碼為詞元 ID 列表。

型別: TokenizerModel 的例項方法
返回: Array.<string> - 編碼後的詞元。
丟擲:

  • 如果在子類中未實現,則會丟擲錯誤。
引數量型別描述
tokensArray.<string>

要編碼的詞元。


tokenizerModel.convert_tokens_to_ids(tokens) ⇒ <code> Array. < number > </code>

將詞元列表轉換為詞元 ID 列表。

型別: TokenizerModel 的例項方法
返回: Array.<number> - 轉換後的詞元 ID。

引數量型別描述
tokensArray.<string>

要轉換的詞元。


tokenizerModel.convert_ids_to_tokens(ids) ⇒ <code> Array. < string > </code>

將詞元 ID 列表轉換為詞元列表。

型別: TokenizerModel 的例項方法
返回: Array.<string> - 轉換後的詞元。

引數量型別描述
idsArray<number> | Array<bigint>

要轉換的詞元 ID。


TokenizerModel.fromConfig(config, ...args) ⇒ <code> TokenizerModel </code>

根據提供的配置物件例項化一個新的 TokenizerModel 例項。

型別: TokenizerModel 的靜態方法
返回: TokenizerModel - 一個新的 TokenizerModel 例項。
丟擲:

  • 如果配置中的 TokenizerModel 型別未被識別,將丟擲錯誤。
引數量型別描述
configObject

TokenizerModel 的配置物件。

...args*

傳遞給特定 TokenizerModel 建構函式的可選引數。


tokenizers.PreTrainedTokenizer

型別: tokenizers 的靜態類


new PreTrainedTokenizer(tokenizerJSON, tokenizerConfig)

建立一個新的 PreTrainedTokenizer 例項。

引數量型別描述
tokenizerJSONObject

分詞器的 JSON。

tokenizerConfigObject

分詞器的配置。


preTrainedTokenizer.added_tokens : <code> Array. < AddedToken > </code>

型別: PreTrainedTokenizer 的例項屬性


preTrainedTokenizer.added_tokens_map : <code> Map. < string, AddedToken > </code>

型別: PreTrainedTokenizer 的例項屬性


preTrainedTokenizer.remove_space : <code> boolean </code>

是否在分詞時去除文字(移除字串前後多餘的空格)。

型別: PreTrainedTokenizer 的例項屬性


preTrainedTokenizer._call(text, options) ⇒ <code> BatchEncoding </code>

編碼/分詞給定的文字。

型別: PreTrainedTokenizer 的例項方法
返回: BatchEncoding - 傳遞給模型的物件。

引數量型別預設描述
textstring | Array<string>

要分詞的文字。

選項Object

一個可選物件,包含以下屬性

[options.text_pair]string | Array<string>null

要編碼的可選第二個序列。如果設定,必須與文字型別相同。

[options.padding]boolean | 'max_length'false

是否填充輸入序列。

[options.add_special_tokens]booleantrue

是否新增與相應模型相關的特殊詞元。

[options.truncation]boolean

是否截斷輸入序列。

[options.max_length]數字

返回列表的最大長度,以及可選的填充長度。

[options.return_tensor]booleantrue

是否以張量或陣列形式返回結果。

[options.return_token_type_ids]boolean

是否返回詞元型別 ID。


preTrainedTokenizer._encode_text(text) ⇒ <code> Array < string > </code> | <code> null </code>

使用分詞器的預處理器流水線編碼單個文字。

型別: PreTrainedTokenizer 的例項方法
返回: Array<string> | null - 編碼後的詞元。

引數量型別描述
textstring | null

要編碼的文字。


preTrainedTokenizer._tokenize_helper(text, options) ⇒ <code> * </code>

用於分詞一個文字以及可選的文字對的內部輔助函式。

型別: PreTrainedTokenizer 的例項方法
返回: * - 一個包含詞元和可選的詞元型別 ID 的物件。

引數量型別預設描述
text字串

要分詞的文字。

選項Object

一個可選物件,包含以下屬性

[options.pair]字串null

要分詞的可選第二個文字。

[options.add_special_tokens]booleanfalse

是否新增與相應模型相關的特殊詞元。


preTrainedTokenizer.tokenize(text, options) ⇒ <code> Array. < string > </code>

將字串轉換為詞元序列。

型別: PreTrainedTokenizer 的例項方法
返回: Array.<string> - 詞元列表。

引數量型別預設描述
text字串

要編碼的序列。

選項Object

一個可選物件,包含以下屬性

[options.pair]字串

與第一個序列一起編碼的第二個序列。

[options.add_special_tokens]booleanfalse

是否新增與相應模型相關的特殊詞元。


preTrainedTokenizer.encode(text, options) ⇒ <code> Array. < number > </code>

使用模型的tokenizer編碼單個文字或文字對。

型別: PreTrainedTokenizer 的例項方法
返回: Array.<number> - 表示編碼後文本的詞元 ID 陣列。

引數量型別預設描述
text字串

要編碼的文字。

選項Object

一個可選物件,包含以下屬性

[options.text_pair]字串null

要編碼的可選第二個文字。

[options.add_special_tokens]booleantrue

是否新增與相應模型相關的特殊詞元。

[options.return_token_type_ids]boolean

是否返回 token_type_ids。


preTrainedTokenizer.batch_decode(batch, decode_args) ⇒ <code> Array. < string > </code>

解碼一批分詞後的序列。

型別: PreTrainedTokenizer 的例項方法
返回: Array.<string> - 解碼後的序列列表。

引數量型別描述
batchArray<Array<number>> | Tensor

分詞後的輸入序列的列表/張量。

decode_argsObject

(可選) 包含解碼引數的物件。


preTrainedTokenizer.decode(token_ids, [decode_args]) ⇒ <code> string </code>

將詞元 ID 序列解碼回字符串。

型別: PreTrainedTokenizer 的例項方法
返回: string - 解碼後的字串。
丟擲:

  • Error 如果 `token_ids` 不是一個非空的整數陣列。
引數量型別預設描述
token_idsArray<number> | Array<bigint> | Tensor

要解碼的詞元 ID 列表/張量。

[decode_args]Object{}
[decode_args.skip_special_tokens]booleanfalse

如果為 true,則從輸出字串中移除特殊詞元。

[decode_args.clean_up_tokenization_spaces]booleantrue

如果為 true,則移除標點符號前和縮寫形式前的空格。


preTrainedTokenizer.decode_single(token_ids, decode_args) ⇒ <code> string </code>

將單個詞元 ID 列表解碼為字串。

型別: PreTrainedTokenizer 的例項方法
返回: string - 解碼後的字串

引數量型別預設描述
token_idsArray<number> | Array<bigint>

要解碼的詞元 ID 列表

decode_argsObject

解碼的可選引數

[decode_args.skip_special_tokens]booleanfalse

解碼時是否跳過特殊詞元

[decode_args.clean_up_tokenization_spaces]boolean

解碼時是否清理分詞空格。如果為 null,該值將設定為 this.decoder.cleanup(如果存在),否則回退到 this.clean_up_tokenization_spaces(如果存在),再回退到 true


preTrainedTokenizer.get_chat_template(options) ⇒ <code> string </code>

檢索用於分詞聊天訊息的聊天模板字串。此模板由 apply_chat_template 方法在內部使用,也可用於外部檢索模型的聊天模板,以更好地跟蹤生成過程。

型別: PreTrainedTokenizer 的例項方法
返回: string - 聊天模板字串。

引數量型別預設描述
選項Object

一個可選物件,包含以下屬性

[options.chat_template]字串null

用於此轉換的 Jinja 模板或模板名稱。通常不需要傳遞任何內容給此引數,因為預設會使用模型的模板。

[options.tools]Array.<Object>

模型可訪問的工具(可呼叫函式)列表。如果模板不支援函式呼叫,此引數將無效。每個工具應以 JSON Schema 形式傳遞,提供工具的名稱、描述和引數型別。更多資訊請參閱我們的聊天模板指南


preTrainedTokenizer.apply_chat_template(conversation, options) ⇒ <code> string </code> | <code> Tensor </code> | <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> BatchEncoding </code>

將包含 "role""content" 鍵的訊息物件列表轉換為詞元 ID 列表。此方法旨在與聊天模型一起使用,並將讀取分詞器的 chat_template 屬性以確定轉換時使用的格式和控制詞元。

有關更多資訊,請參閱此處

示例: 將聊天模板應用於對話。

import { AutoTokenizer } from "@huggingface/transformers";

const tokenizer = await AutoTokenizer.from_pretrained("Xenova/mistral-tokenizer-v1");

const chat = [
  { "role": "user", "content": "Hello, how are you?" },
  { "role": "assistant", "content": "I'm doing great. How can I help you today?" },
  { "role": "user", "content": "I'd like to show off how chat templating works!" },
]

const text = tokenizer.apply_chat_template(chat, { tokenize: false });
// "<s>[INST] Hello, how are you? [/INST]I'm doing great. How can I help you today?</s> [INST] I'd like to show off how chat templating works! [/INST]"

const input_ids = tokenizer.apply_chat_template(chat, { tokenize: true, return_tensor: false });
// [1, 733, 16289, 28793, 22557, 28725, 910, 460, 368, 28804, 733, 28748, 16289, 28793, 28737, 28742, 28719, 2548, 1598, 28723, 1602, 541, 315, 1316, 368, 3154, 28804, 2, 28705, 733, 16289, 28793, 315, 28742, 28715, 737, 298, 1347, 805, 910, 10706, 5752, 1077, 3791, 28808, 733, 28748, 16289, 28793]

型別: PreTrainedTokenizer 的例項方法
返回: string | Tensor | Array<number> | Array<Array<number>> | BatchEncoding - 分詞後的輸出。

引數量型別預設描述
conversationArray.<Message>

一個包含 "role""content" 鍵的訊息物件列表,代表到目前為止的聊天記錄。

選項Object

一個可選物件,包含以下屬性

[options.chat_template]字串null

用於此轉換的 Jinja 模板。如果未傳遞此引數,則將使用模型的聊天模板。

[options.tools]Array.<Object>

模型可訪問的工具(可呼叫函式)列表。如果模板不支援函式呼叫,此引數將無效。每個工具應以 JSON Schema 形式傳遞,提供工具的名稱、描述和引數型別。更多資訊請參閱我們的聊天模板指南

[options.documents]*

表示文件的字典列表,如果模型正在執行 RAG(檢索增強生成),這些文件將對模型可用。如果模板不支援 RAG,此引數將無效。我們建議每個文件都是一個包含 "title" 和 "text" 鍵的字典。有關使用聊天模板傳遞文件的示例,請參閱聊天模板指南的 RAG 部分。

[options.add_generation_prompt]booleanfalse

是否用表示助手訊息開始的詞元結束提示。當您想從模型生成響應時,這很有用。請注意,此引數將傳遞給聊天模板,因此模板必須支援此引數才能生效。

[options.tokenize]booleantrue

是否對輸出進行分詞。如果為 false,輸出將是字串。

[options.padding]booleanfalse

是否將序列填充到最大長度。如果 tokenize 為 false,則無效。

[options.truncation]booleanfalse

是否將序列截斷到最大長度。如果 tokenize 為 false,則無效。

[options.max_length]數字

用於填充或截斷的最大長度(以詞元為單位)。如果 tokenize 為 false,則無效。如果未指定,將使用分詞器的 max_length 屬性作為預設值。

[options.return_tensor]booleantrue

是否以 Tensor 或 Array 的形式返回輸出。如果 tokenize 為 false,則無效。

[options.return_dict]booleantrue

是否返回帶有命名輸出的字典。如果 tokenize 為 false,則無效。

[options.tokenizer_kwargs]Object{}

傳遞給分詞器的其他選項。


PreTrainedTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>

從給定的 pretrained_model_name_or_path 載入預訓練的分詞器。

型別: PreTrainedTokenizer 的靜態方法
返回: Promise.<PreTrainedTokenizer> - PreTrainedTokenizer 類的新例項。
丟擲:

  • Error 如果在 `pretrained_model_name_or_path` 中找不到 tokenizer.json 或 tokenizer_config.json 檔案,則丟擲錯誤。
引數量型別描述
pretrained_model_name_or_path字串

預訓練分詞器的路徑。

選項PretrainedTokenizerOptions

載入分詞器的其他選項。


tokenizers.BertTokenizer ⇐ <code> PreTrainedTokenizer </code>

BertTokenizer 是一個用於為 BERT 模型分詞文字的類。

型別: tokenizers 的靜態類
繼承自: PreTrainedTokenizer


tokenizers.AlbertTokenizer ⇐ <code> PreTrainedTokenizer </code>

Albert 分詞器

型別: tokenizers 的靜態類
繼承自: PreTrainedTokenizer


tokenizers.NllbTokenizer

NllbTokenizer 類用於為 NLLB(“不讓任何語言掉隊”)模型進行文字分詞。

“不讓任何語言掉隊”(NLLB)是一個首創的、AI 突破性專案,它開源了能夠直接在 200 多種語言對之間提供高質量翻譯的模型——包括阿斯圖里亞斯語、盧幹達語、烏爾都語等低資源語言。它旨在幫助人們與任何人、在任何地方進行交流,無論他們的語言偏好如何。更多資訊,請檢視他們的論文

有關支援的語言列表(及其語言程式碼),

型別: tokenizers 的靜態類
請參閱: https://github.com/facebookresearch/flores/blob/main/flores200/README.md#languages-in-flores-200


nllbTokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>

NllbTokenizer 構建翻譯輸入的輔助函式。

型別: NllbTokenizer 的例項方法
返回: Object - 傳遞給模型的物件。

引數量型別描述
raw_inputsstring | Array<string>

要分詞的文字。

tokenizer_optionsObject

傳送給分詞器的選項

generate_kwargsObject

生成選項。


tokenizers.M2M100Tokenizer

M2M100Tokenizer 類用於為 M2M100(“多對多”)模型進行文字分詞。

M2M100 是一個多語言編碼器-解碼器(seq-to-seq)模型,為多對多(Many-to-Many)多語言翻譯任務而訓練。它在這篇論文中被提出,並首次在這個程式碼庫中釋出。

有關支援的語言列表(及其語言程式碼),

型別: tokenizers 的靜態類
另見: https://huggingface.co/facebook/m2m100_418M#languages-covered


m2M100Tokenizer._build_translation_inputs(raw_inputs, tokenizer_options, generate_kwargs) ⇒ <code> Object </code>

用於為 M2M100Tokenizer 構建翻譯輸入的輔助函式。

型別: M2M100Tokenizer 的例項方法
返回: Object - 傳遞給模型的物件。

引數量型別描述
raw_inputsstring | Array<string>

要分詞的文字。

tokenizer_optionsObject

傳送給分詞器的選項

generate_kwargsObject

生成選項。


tokenizers.WhisperTokenizer ⇐ <code> PreTrainedTokenizer </code>

WhisperTokenizer 分詞器

型別: tokenizers 的靜態類
繼承自: PreTrainedTokenizer


whisperTokenizer._decode_asr(sequences, options) ⇒ <code> * </code>

解碼自動語音識別(ASR)序列。

型別: WhisperTokenizer 的例項方法
返回: * - 解碼後的序列。

引數量型別描述
sequences*

要解碼的序列。

選項Object

用於解碼的選項。


whisperTokenizer.decode() : <code> * </code>

型別: WhisperTokenizer 的例項方法


tokenizers.MarianTokenizer

型別: tokenizers 的靜態類
待辦


new MarianTokenizer(tokenizerJSON, tokenizerConfig)

建立一個新的 MarianTokenizer 例項。

引數量型別描述
tokenizerJSONObject

分詞器的 JSON。

tokenizerConfigObject

分詞器的配置。


marianTokenizer._encode_text(text) ⇒ <code> Array </code>

編碼單個文字。必須重寫此方法,因為在使用 sentencepiece 模型編碼之前,必須移除語言程式碼。

型別: MarianTokenizer 的例項方法
返回: Array - 編碼後的詞元。
另見: https://github.com/huggingface/transformers/blob/12d51db243a00726a548a43cc333390ebae731e3/src/transformers/models/marian/tokenization_marian.py#L204-L213

引數量型別描述
textstring | null

要編碼的文字。


tokenizers.AutoTokenizer

這是一個輔助類,用於透過 from_pretrained 函式例項化預訓練的分詞器。所選擇的分詞器類由分詞器配置中指定的型別決定。

型別: tokenizers 的靜態類


new AutoTokenizer()

示例

const tokenizer = await AutoTokenizer.from_pretrained('Xenova/bert-base-uncased');

AutoTokenizer.from_pretrained(pretrained_model_name_or_path, options) ⇒ <code> Promise. < PreTrainedTokenizer > </code>

從一個預訓練模型例項化庫中的一個分詞器類。

要例項化的分詞器類是根據配置物件(作為引數傳入或從 pretrained_model_name_or_path 載入)的 tokenizer_class 屬性來選擇的。

型別: AutoTokenizer 的靜態方法
返回: Promise.<PreTrainedTokenizer> - PreTrainedTokenizer 類的一個新例項。

引數量型別描述
pretrained_model_name_or_path字串

預訓練模型的名稱或路徑。可以是

  • 一個字串,表示託管在 huggingface.co 上模型倉庫中的預訓練分詞器的 模型 ID。有效的模型 ID 可以位於根級別,如 bert-base-uncased,或在使用者或組織名稱空間下,如 dbmdz/bert-base-german-cased
  • 一個指向包含分詞器檔案的 目錄 的路徑,例如 ./my_model_directory/
選項PretrainedTokenizerOptions

載入分詞器的其他選項。


tokenizers.is_chinese_char(cp) ⇒ <code> boolean </code>

檢查給定的 Unicode 碼點是否表示一個 CJK(中文、日文或韓文)字元。

“中文字元”被定義為 CJK Unicode 區塊中的任何字元:https://en.wikipedia.org/wiki/CJK_Unified_Ideographs_(Unicode_block)

請注意,儘管其名稱如此,CJK Unicode 區塊並不包含所有的日文和韓文字元。現代韓文的諺文字母位於一個不同的區塊,日文的平假名和片假名也是如此。這些字母表用於書寫以空格分隔的單詞,因此它們不被特殊處理,而是像所有其他語言一樣處理。

型別: tokenizers 的靜態方法
返回: boolean - 如果碼點表示一個 CJK 字元,則為 True,否則為 false。

引數量型別描述
cpnumber | bigint

要檢查的 Unicode 碼點。


tokenizers~AddedToken

表示使用者在現有模型詞彙表之上新增的詞元。可以配置 AddedToken 以指定它們在各種情況下的行為,例如

  • 它們是否應僅匹配單個單詞
  • 是否包含其左側或右側的任何空白

型別: tokenizers 的內部類


new AddedToken(config)

建立一個新的 AddedToken 例項。

引數量型別預設描述
configObject

新增的詞元的配置物件。

config.content字串

新增的詞元的內容。

config.id數字

新增的詞元的 ID。

[config.single_word]booleanfalse

此詞元是否必須是單個單詞,或者可以拆分單詞。

[config.lstrip]booleanfalse

此詞元是否應去除其左側的空白。

[config.rstrip]booleanfalse

此詞元是否應去除其右側的空白。

[config.normalized]booleanfalse

此詞元是否應被歸一化。

[config.special]booleanfalse

此詞元是否是特殊詞元。


tokenizers~WordPieceTokenizer ⇐ <code> TokenizerModel </code>

TokenizerModel 的一個子類,它使用 WordPiece 編碼來編碼詞元。

型別: tokenizers 的內部類
繼承自: TokenizerModel


new WordPieceTokenizer(config)

引數量型別預設描述
configObject

配置物件。

config.vocabObject

詞元到 ID 的對映。

config.unk_token字串

未知詞元字串。

config.continuing_subword_prefix字串

用於連續子詞的字首。

[config.max_input_chars_per_word]數字100

每個單詞的最大字元數。


wordPieceTokenizer.tokens_to_ids : <code> Map. < string, number > </code>

詞元到 ID 的對映。

型別: WordPieceTokenizer 的例項屬性


wordPieceTokenizer.unk_token_id : <code> number </code>

未知詞元的 ID。

型別: WordPieceTokenizer 的例項屬性


wordPieceTokenizer.unk_token : <code> string </code>

未知詞元字串。

型別: WordPieceTokenizer 的例項屬性


wordPieceTokenizer.max_input_chars_per_word : <code> number </code>

每個單詞允許的最大字元數。

型別: WordPieceTokenizer 的例項屬性


wordPieceTokenizer.vocab : <code> Array. < string > </code>

一個詞元陣列。

型別: WordPieceTokenizer 的例項屬性


wordPieceTokenizer.encode(tokens) ⇒ <code> Array. < string > </code>

使用 WordPiece 編碼對一個詞元陣列進行編碼。

型別: WordPieceTokenizer 的例項方法
返回: Array.<string> - 一個編碼後的詞元陣列。

引數量型別描述
tokensArray.<string>

要編碼的詞元。


tokenizers~Unigram ⇐ <code> TokenizerModel </code>

代表 Unigram 分詞器模型的類。

型別: tokenizers 的內部類
繼承自: TokenizerModel


new Unigram(config, moreConfig)

建立一個新的 Unigram 分詞器模型。

引數量型別描述
configObject

Unigram 模型的配置物件。

config.unk_id數字

未知詞元的 ID

config.vocab*

一個表示詞元到分數對映的二維陣列。

moreConfigObject

Unigram 模型的附加配置物件。


unigram.scores : <code> Array. < number > </code>

型別: Unigram 的例項屬性


unigram.populateNodes(lattice)

填充晶格節點。

型別: Unigram 的例項方法

引數量型別描述
latticeTokenLattice

要用節點填充的詞元晶格。


unigram.tokenize(normalized) ⇒ <code> Array. < string > </code>

使用 unigram 模型將詞元陣列編碼為子詞元陣列。

型別: Unigram 的例項方法
返回: Array.<string> - 使用 unigram 模型對輸入詞元進行編碼後得到的子詞元陣列。

引數量型別描述
normalized字串

歸一化後的字串。


unigram.encode(tokens) ⇒ <code> Array. < string > </code>

使用 Unigram 編碼對一個詞元陣列進行編碼。

型別: Unigram 的例項方法
返回: Array.<string> - 一個編碼後的詞元陣列。

引數量型別描述
tokensArray.<string>

要編碼的詞元。


tokenizers~BPE ⇐ <code> TokenizerModel </code>

用於將文字編碼為位元組對編碼(BPE)詞元的 BPE 類。

型別: tokenizers 的內部類
繼承自: TokenizerModel


new BPE(config)

建立一個 BPE 例項。

引數量型別預設描述
configObject

BPE 的配置物件。

config.vocabObject

詞元到 ID 的對映。

config.merges*

一個由字串表示的 BPE 合併規則陣列。

config.unk_token字串

用於詞彙表外單詞的未知詞元。

config.end_of_word_suffix字串

在每個單詞末尾放置的字尾。

[config.continuing_subword_suffix]字串

在單詞之間插入的字尾。

[config.byte_fallback]booleanfalse

是否使用 spm 的位元組回退技巧(預設為 False)

[config.ignore_merges]booleanfalse

在使用合併規則之前,是否先將詞元與詞彙表進行匹配。


bpE.tokens_to_ids : <code> Map. < string, number > </code>

型別: BPE 的例項屬性


bpE.merges : <code> * </code>

型別: BPE 的例項屬性


merges.config.merges : <code> * </code>

型別: merges 的靜態屬性


bpE.max_length_to_cache

模型中應快取的最大長度。太長的字串快取命中的機會很小。

型別: BPE 的例項屬性


bpE.cache_capacity

BPE 內部快取的預設容量。

型別: BPE 的例項屬性


bpE.clear_cache()

清除快取。

型別: BPE 的例項方法


bpE.bpe(token) ⇒ <code> Array. < string > </code>

對給定的詞元應用位元組對編碼(BPE)。高效的基於堆的優先佇列實現改編自 https://github.com/belladoreai/llama-tokenizer-js

型別: BPE 的例項方法
返回: Array.<string> - BPE 編碼後的詞元。

引數量型別描述
token字串

要編碼的詞元。


bpE.encode(tokens) ⇒ <code> Array. < string > </code>

使用 BPE 演算法對輸入的詞元序列進行編碼,並返回生成的子詞詞元。

型別: BPE 的例項方法
返回: Array.<string> - 對輸入詞元序列應用 BPE 演算法後得到的子詞詞元。

引數量型別描述
tokensArray.<string>

要編碼的輸入詞元序列。


tokenizers~LegacyTokenizerModel

用於僅有詞彙表的分詞器的傳統分詞器類。

型別: tokenizers 的內部類


new LegacyTokenizerModel(config, moreConfig)

建立一個 LegacyTokenizerModel 例項。

引數量型別描述
configObject

LegacyTokenizerModel 的配置物件。

config.vocabObject

一個(可能是巢狀的)詞元到 ID 的對映。

moreConfigObject

LegacyTokenizerModel 模型的附加配置物件。


legacyTokenizerModel.tokens_to_ids : <code> Map. < string, number > </code>

型別: LegacyTokenizerModel 的例項屬性


tokenizers~Normalizer

文字歸一化的基類。

型別: tokenizers 的內部抽象類


new Normalizer(config)

引數量型別描述
configObject

歸一化器的配置物件。


normalizer.normalize(text) ⇒ <code> string </code>

歸一化輸入文字。

型別: Normalizer 的例項抽象方法
返回: string - 歸一化後的文字。
丟擲:

  • Error 如果此方法未在子類中實現。
引數量型別描述
text字串

要歸一化的文字。


normalizer._call(text) ⇒ <code> string </code>

Normalizer#normalize 的別名。

型別: Normalizer 的例項方法
返回: string - 歸一化後的文字。

引數量型別描述
text字串

要歸一化的文字。


Normalizer.fromConfig(config) ⇒ <code> Normalizer </code>

用於從配置物件建立歸一化器的工廠方法。

型別: Normalizer 的靜態方法
返回: Normalizer - 一個歸一化器物件。
丟擲:

  • Error 如果在配置中指定了未知的歸一化器型別。
引數量型別描述
configObject

歸一化器的配置物件。


tokenizers~Replace ⇐ <code> Normalizer </code>

將模式的出現替換為給定字串或正則表示式的替換歸一化器。

型別: tokenizers 的內部類
繼承自: Normalizer


replace.normalize(text) ⇒ <code> string </code>

透過將模式替換為內容來歸一化輸入文字。

型別: Replace 的例項方法
返回: string - 將模式替換為內容後歸一化後的文字。

引數量型別描述
text字串

要歸一化的輸入文字。


tokenizers~UnicodeNormalizer ⇐ <code> Normalizer </code>

對輸入文字應用 Unicode 歸一化的歸一化器。

型別: tokenizers 的內部抽象類
繼承自: Normalizer


unicodeNormalizer.form : <code> string </code>

要應用的 Unicode 歸一化形式。應為以下之一:'NFC'、'NFD'、'NFKC' 或 'NFKD'。

型別: UnicodeNormalizer 的例項屬性


unicodeNormalizer.normalize(text) ⇒ <code> string </code>

透過應用 Unicode 歸一化來歸一化輸入文字。

型別: UnicodeNormalizer 的例項方法
返回: string - 歸一化後的文字。

引數量型別描述
text字串

要歸一化的輸入文字。


tokenizers~NFC ⇐ <code> UnicodeNormalizer </code>

將 Unicode 正規化 C (NFC) 應用於輸入文字的規範器。先進行規範分解,然後進行規範組合。

型別: tokenizers 的內部類
擴充套件: UnicodeNormalizer


tokenizers~NFD ⇐ <code> UnicodeNormalizer </code>

將 Unicode 正規化 D (NFD) 應用於輸入文字的規範器。規範分解。

型別: tokenizers 的內部類
擴充套件: UnicodeNormalizer


tokenizers~NFKC ⇐ <code> UnicodeNormalizer </code>

將 Unicode 正規化 KC (NFKC) 應用於輸入文字的規範器。先進行相容分解,然後進行規範組合。

型別: tokenizers 的內部類
擴充套件: UnicodeNormalizer


tokenizers~NFKD ⇐ <code> UnicodeNormalizer </code>

將 Unicode 正規化 KD (NFKD) 應用於輸入文字的規範器。相容分解。

型別: tokenizers 的內部類
擴充套件: UnicodeNormalizer


tokenizers~StripNormalizer

一個從輸入文字中去除前導和/或尾隨空白字元的規範器。

型別: tokenizers 的內部類


stripNormalizer.normalize(text) ⇒ <code> string </code>

從輸入文字中去除前導和/或尾隨空白字元。

類別: StripNormalizer 的例項方法
返回: string - 歸一化後的文字。

引數量型別描述
text字串

輸入文字。


tokenizers~StripAccents ⇐ <code> Normalizer </code>

StripAccents 規範器會移除文字中的所有重音符號。

型別: tokenizers 的內部類
繼承自: Normalizer


stripAccents.normalize(text) ⇒ <code> string </code>

移除文字中的所有重音符號。

類別: StripAccents 的例項方法
返回: string - 沒有重音符號的規範化文字。

引數量型別描述
text字串

輸入文字。


tokenizers~Lowercase ⇐ <code> Normalizer </code>

將輸入字串轉換為小寫的規範器。

型別: tokenizers 的內部類
繼承自: Normalizer


lowercase.normalize(text) ⇒ <code> string </code>

將輸入字串轉換為小寫。

類別: Lowercase 的例項方法
返回: string - 歸一化後的文字。

引數量型別描述
text字串

要歸一化的文字。


tokenizers~Prepend ⇐ <code> Normalizer </code>

在輸入字串前新增一個字串的規範器。

型別: tokenizers 的內部類
繼承自: Normalizer


prepend.normalize(text) ⇒ <code> string </code>

在輸入字串前新增指定內容。

類別: Prepend 的例項方法
返回: string - 歸一化後的文字。

引數量型別描述
text字串

要歸一化的文字。


tokenizers~NormalizerSequence ⇐ <code> Normalizer </code>

一個按順序應用一系列規範器的規範器。

型別: tokenizers 的內部類
繼承自: Normalizer


new NormalizerSequence(config)

建立一個新的 NormalizerSequence 例項。

引數量型別描述
configObject

配置物件。

config.normalizersArray.<Object>

一個包含規範器配置物件的陣列。


normalizerSequence.normalize(text) ⇒ <code> string </code>

將一系列規範器應用於輸入文字。

類別: NormalizerSequence 的例項方法
返回: string - 歸一化後的文字。

引數量型別描述
text字串

要歸一化的文字。


tokenizers~BertNormalizer ⇐ <code> Normalizer </code>

表示 BERT 分詞中使用的規範器的類。

型別: tokenizers 的內部類
繼承自: Normalizer


bertNormalizer._tokenize_chinese_chars(text) ⇒ <code> string </code>

在輸入文字中的任何 CJK(中文、日文或韓文)字元周圍新增空格。

類別: BertNormalizer 的例項方法
返回: string - 在 CJK 字元周圍添加了空格的分詞後文本。

引數量型別描述
text字串

要進行分詞的輸入文字。


bertNormalizer.stripAccents(text) ⇒ <code> string </code>

從給定文字中去除重音符號。

類別: BertNormalizer 的例項方法
返回: string - 移除了重音符號的文字。

引數量型別描述
text字串

要去除重音符號的文字。


bertNormalizer.normalize(text) ⇒ <code> string </code>

根據配置對給定文字進行規範化。

類別: BertNormalizer 的例項方法
返回: string - 歸一化後的文字。

引數量型別描述
text字串

要歸一化的文字。


tokenizers~PreTokenizer ⇐ <code> Callable </code>

一個可呼叫的類,表示分詞中使用的預分詞器。子類應實現 pre_tokenize_text 方法來定義特定的預分詞邏輯。

型別: tokenizers 的內部類
繼承自: Callable


preTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

子類應實現此方法來定義特定的預分詞邏輯。

類別: PreTokenizer 的例項抽象方法
返回: Array.<string> - 預分詞後的文字。
丟擲:

  • Error 如果方法未在子類中實現。
引數量型別描述
text字串

要進行預分詞的文字。

[options]Object

預分詞邏輯的附加選項。


preTokenizer.pre_tokenize(text, [options]) ⇒ <code> Array. < string > </code>

將給定文字分詞為預分詞單元。

類別: PreTokenizer 的例項方法
返回: Array.<string> - 一個包含預分詞單元的陣列。

引數量型別描述
textstring | Array<string>

要進行預分詞的文字或文字陣列。

[options]Object

預分詞邏輯的附加選項。


preTokenizer._call(text, [options]) ⇒ <code> Array. < string > </code>

PreTokenizer#pre_tokenize 的別名。

類別: PreTokenizer 的例項方法
重寫: _call
返回: Array.<string> - 一個包含預分詞單元的陣列。

引數量型別描述
textstring | Array<string>

要進行預分詞的文字或文字陣列。

[options]Object

預分詞邏輯的附加選項。


PreTokenizer.fromConfig(config) ⇒ <code> PreTokenizer </code>

工廠方法,根據提供的配置返回 PreTokenizer 子類的例項。

類別: PreTokenizer 的靜態方法
返回: PreTokenizer - PreTokenizer 子類的例項。
丟擲:

  • Error 如果提供的配置物件不對應任何已知的預分詞器。
引數量型別描述
configObject

預分詞器的配置物件。


tokenizers~BertPreTokenizer ⇐ <code> PreTokenizer </code>

型別: tokenizers 的內部類
擴充套件: PreTokenizer


new BertPreTokenizer(config)

一個預分詞器,使用類似於 BERT 原始實現中使用的基本分詞方案將文字分割成詞片段。

引數量型別描述
configObject

配置物件。


bertPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

使用 BERT 預分詞方案對單個文字進行分詞。

類別: BertPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。

引數量型別描述
text字串

要分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~ByteLevelPreTokenizer ⇐ <code> PreTokenizer </code>

一個將文字分割成位元組對編碼 (BPE) 子詞的預分詞器。

型別: tokenizers 的內部類
擴充套件: PreTokenizer


new ByteLevelPreTokenizer(config)

建立 ByteLevelPreTokenizer 類的新例項。

引數量型別描述
configObject

配置物件。


byteLevelPreTokenizer.add_prefix_space : <code> boolean </code>

是否在第一個單詞前新增一個前導空格。這使得可以像處理其他單詞一樣處理第一個單詞。

類別: ByteLevelPreTokenizer 的例項屬性


byteLevelPreTokenizer.trim_offsets : <code> boolean </code>

後處理步驟是否應該修剪偏移量以避免包含空白字元。

類別: ByteLevelPreTokenizer 的例項屬性
待辦

  • 在預分詞步驟中使用此選項。

byteLevelPreTokenizer.use_regex : <code> boolean </code>

是否使用標準的 GPT2 正則表示式進行空白字元分割。如果你想使用自己的分割方式,請將其設定為 False。預設為 true。

類別: ByteLevelPreTokenizer 的例項屬性


byteLevelPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

使用位元組級分詞法對單段文字進行分詞。

類別: ByteLevelPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。

引數量型別描述
text字串

要分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~SplitPreTokenizer ⇐ <code> PreTokenizer </code>

使用給定的模式分割文字。

型別: tokenizers 的內部類
擴充套件: PreTokenizer


new SplitPreTokenizer(config)

引數量型別描述
configObject

預分詞器的配置選項。

config.patternObject

用於分割文字的模式。可以是一個字串或一個正則表示式物件。

config.pattern.Stringstring | undefined

用於分割的字串。僅當模式是字串時定義。

config.pattern.Regexstring | undefined

用於分割的正則表示式。僅當模式是正則表示式時定義。

config.behaviorSplitDelimiterBehavior

分割時使用的行為。

config.invertboolean

是分割(invert=false)還是匹配(invert=true)模式。


splitPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

透過使用給定的模式分割文字來進行分詞。

類別: SplitPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。

引數量型別描述
text字串

要分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~PunctuationPreTokenizer ⇐ <code> PreTokenizer </code>

根據標點符號分割文字。

型別: tokenizers 的內部類
擴充套件: PreTokenizer


new PunctuationPreTokenizer(config)

引數量型別描述
configObject

預分詞器的配置選項。

config.behaviorSplitDelimiterBehavior

分割時使用的行為。


punctuationPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

透過使用給定的模式分割文字來進行分詞。

類別: PunctuationPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。

引數量型別描述
text字串

要分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~DigitsPreTokenizer ⇐ <code> PreTokenizer </code>

根據數字分割文字。

型別: tokenizers 的內部類
擴充套件: PreTokenizer


new DigitsPreTokenizer(config)

引數量型別描述
configObject

預分詞器的配置選項。

config.individual_digitsboolean

是否按單個數字進行分割。


digitsPreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

透過使用給定的模式分割文字來進行分詞。

類別: DigitsPreTokenizer 的例項方法
返回: Array.<string> - 一個包含詞元的陣列。

引數量型別描述
text字串

要分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~PostProcessor ⇐ <code> Callable </code>

型別: tokenizers 的內部類
繼承自: Callable


new PostProcessor(config)

引數量型別描述
configObject

後處理器的配置。


postProcessor.post_process(tokens, ...args) ⇒ <code> PostProcessedOutput </code>

需要在子類中實現的方法,用於對給定的詞元應用後處理。

類別: PostProcessor 的例項方法
返回: PostProcessedOutput - 後處理後的詞元。
丟擲:

  • Error 如果方法未在子類中實現。
引數量型別描述
tokens陣列

要進行後處理的輸入詞元。

...args*

後處理邏輯所需的附加引數。


postProcessor._call(tokens, ...args) ⇒ <code> PostProcessedOutput </code>

PostProcessor#post_process 的別名。

類別: PostProcessor 的例項方法
重寫: _call
返回: PostProcessedOutput - 後處理後的詞元。

引數量型別描述
tokens陣列

要進行後處理的文字或文字陣列。

...args*

後處理邏輯所需的附加引數。


PostProcessor.fromConfig(config) ⇒ <code> PostProcessor </code>

用於從配置物件建立 PostProcessor 物件的工廠方法。

類別: PostProcessor 的靜態方法
返回: PostProcessor - 從給定配置建立的 PostProcessor 物件。
丟擲:

  • Error 如果遇到未知的 PostProcessor 型別。
引數量型別描述
configObject

表示 PostProcessor 的配置物件。


tokenizers~BertProcessing

一個在輸入內容的開頭和結尾新增特殊詞元的後處理器。

型別: tokenizers 的內部類


new BertProcessing(config)

引數量型別描述
configObject

後處理器的配置。

config.clsArray.<string>

要新增到輸入內容開頭的特殊詞元。

config.sepArray.<string>

要新增到輸入內容結尾的特殊詞元。


bertProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

將特殊詞元新增到輸入內容的開頭和結尾。

類別: BertProcessing 的例項方法
返回: PostProcessedOutput - 在開頭和結尾添加了特殊詞元的後處理後詞元。

引數量型別預設描述
tokensArray.<string>

輸入詞元。

[tokens_pair]Array.<string>

可選的第二組輸入詞元。


tokenizers~TemplateProcessing ⇐ <code> PostProcessor </code>

用實際詞元替換模板中特殊詞元的後處理器。

型別: tokenizers 的內部類
擴充套件: PostProcessor


new TemplateProcessing(config)

建立一個新的 TemplateProcessing 例項。

引數量型別描述
configObject

後處理器的配置選項。

config.single陣列

單個詞元序列的模板。

config.pair陣列

一對詞元序列的模板。


templateProcessing.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

用實際詞元替換模板中的特殊詞元。

類別: TemplateProcessing 的例項方法
返回: PostProcessedOutput - 一個物件,包含用實際詞元替換了特殊詞元的詞元列表。

引數量型別預設描述
tokensArray.<string>

第一個序列的詞元列表。

[tokens_pair]Array.<string>

第二個序列的詞元列表(可選)。


tokenizers~ByteLevelPostProcessor ⇐ <code> PostProcessor </code>

一個按原樣返回給定詞元的後處理器。

型別: tokenizers 的內部類
擴充套件: PostProcessor


byteLevelPostProcessor.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

對給定的詞元進行後處理。

類別: ByteLevelPostProcessor 的例項方法
返回: PostProcessedOutput - 包含後處理後詞元的物件。

引數量型別預設描述
tokensArray.<string>

第一個序列的詞元列表。

[tokens_pair]Array.<string>

第二個序列的詞元列表(可選)。


tokenizers~PostProcessorSequence

一個按順序應用多個後處理器的後處理器。

型別: tokenizers 的內部類


new PostProcessorSequence(config)

建立一個新的 PostProcessorSequence 例項。

引數量型別描述
configObject

配置物件。

config.processorsArray.<Object>

要應用的後處理器列表。


postProcessorSequence.post_process(tokens, [tokens_pair]) ⇒ <code> PostProcessedOutput </code>

對給定的詞元進行後處理。

類別: PostProcessorSequence 的例項方法
返回: PostProcessedOutput - 包含後處理後詞元的物件。

引數量型別預設描述
tokensArray.<string>

第一個序列的詞元列表。

[tokens_pair]Array.<string>

第二個序列的詞元列表(可選)。


tokenizers~Decoder ⇐ <code> Callable </code>

詞元解碼器的基類。

型別: tokenizers 的內部類
繼承自: Callable


new Decoder(config)

建立 Decoder 的例項。

引數量型別描述
configObject

配置物件。


decoder.added_tokens : <code> Array. < AddedToken > </code>

類別: Decoder 的例項屬性


decoder._call(tokens) ⇒ <code> string </code>

呼叫 decode 方法。

類別: Decoder 的例項方法
重寫: _call
返回: string - 解碼後的字串。

引數量型別描述
tokensArray.<string>

令牌列表。


decoder.decode(tokens) ⇒ <code> string </code>

解碼一個詞元列表。

類別: Decoder 的例項方法
返回: string - 解碼後的字串。

引數量型別描述
tokensArray.<string>

令牌列表。


decoder.decode_chain(tokens) ⇒ <code> Array. < string > </code>

將解碼器應用於一個詞元列表。

類別: Decoder 的例項方法
返回: Array.<string> - 解碼後的詞元列表。
丟擲:

  • Error 如果 `decode_chain` 方法未在子類中實現。
引數量型別描述
tokensArray.<string>

令牌列表。


Decoder.fromConfig(config) ⇒ <code> Decoder </code>

根據提供的配置建立一個解碼器例項。

類別: Decoder 的靜態方法
返回: Decoder - 一個解碼器例項。
丟擲:

  • 如果提供了未知的解碼器型別,則返回 Error
引數量型別描述
configObject

配置物件。


tokenizers~FuseDecoder

Fuse 僅將所有分詞(token)融合成一個大字串。這通常是解碼的最後一步,但這個解碼器的存在是為了以防某些解碼器需要在此步驟之後進行操作。

型別: tokenizers 的內部類


fuseDecoder.decode_chain() : <code> * </code>

類別: FuseDecoder 的例項方法


tokenizers~WordPieceDecoder ⇐ <code> Decoder </code>

一個將 WordPiece 分詞列表解碼為單個字串的解碼器。

型別: tokenizers 的內部類
繼承自: Decoder


new WordPieceDecoder(config)

建立一個新的 WordPieceDecoder 例項。

引數量型別描述
configObject

配置物件。

config.prefix字串

用於 WordPiece 編碼的字首。

config.cleanupboolean

是否清理解碼後的字串。


wordPieceDecoder.decode_chain() : <code> * </code>

類別: WordPieceDecoder 的例項方法


tokenizers~ByteLevelDecoder ⇐ <code> Decoder </code>

用於分詞輸出的位元組級解碼器。繼承自 Decoder 類。

型別: tokenizers 的內部類
繼承自: Decoder


new ByteLevelDecoder(config)

建立一個 ByteLevelDecoder 物件。

引數量型別描述
configObject

配置物件。


byteLevelDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>

透過解碼每個位元組將分詞陣列轉換為字串。

類別: ByteLevelDecoder 的例項方法
返回: string - 解碼後的字串。

引數量型別描述
tokensArray.<string>

需要解碼的分詞陣列。


byteLevelDecoder.decode_chain() : <code> * </code>

類別: ByteLevelDecoder 的例項方法


tokenizers~CTCDecoder

CTC (Connectionist Temporal Classification) 解碼器。請參閱 https://github.com/huggingface/tokenizers/blob/bb38f390a61883fc2f29d659af696f428d1cda6b/tokenizers/src/decoders/ctc.rs

型別: tokenizers 的內部類


ctcDecoder.convert_tokens_to_string(tokens) ⇒ <code> string </code>

將連線主義時間分類 (CTC) 輸出的分詞轉換為單個字串。

類別: CTCDecoder 的例項方法
返回: string - 解碼後的字串。

引數量型別描述
tokensArray.<string>

需要解碼的分詞陣列。


ctcDecoder.decode_chain() : <code> * </code>

類別: CTCDecoder 的例項方法


tokenizers~DecoderSequence ⇐ <code> Decoder </code>

應用一系列解碼器。

型別: tokenizers 的內部類
繼承自: Decoder


new DecoderSequence(config)

建立一個新的 DecoderSequence 例項。

引數量型別描述
configObject

配置物件。

config.decodersArray.<Object>

要應用的解碼器列表。


decoderSequence.decode_chain() : <code> * </code>

類別: DecoderSequence 的例項方法


tokenizers~MetaspacePreTokenizer ⇐ <code> PreTokenizer </code>

此預處理器(PreTokenizer)用給定的替換字元替換空格,如果需要則新增字首空格,並返回一個分詞列表。

型別: tokenizers 的內部類
擴充套件: PreTokenizer


new MetaspacePreTokenizer(config)

引數量型別預設描述
configObject

MetaspacePreTokenizer 的配置物件。

config.add_prefix_spaceboolean

是否在第一個分詞前新增字首空格。

config.replacement字串

用於替換空格的字元。

[config.str_rep]字串“config.replacement”

替換字元的可選字串表示。

[config.prepend_scheme]'first' | 'never' | 'always''always'

metaspace 前置方案。


metaspacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

此方法接收一個字串,用替換字元替換空格,如果需要則新增字首空格,並返回一個新的分詞列表。

類別: MetaspacePreTokenizer 的例項方法
返回: Array.<string> - 一個新的預分詞列表。

引數量型別描述
text字串

要進行預分詞的文字。

[options]Object

預分詞的選項。

[options.section_index]數字

要進行預分詞的部分的索引。


tokenizers~MetaspaceDecoder ⇐ <code> Decoder </code>

MetaspaceDecoder 類繼承自 Decoder 類,用於解碼 Metaspace 分詞結果。

型別: tokenizers 的內部類
繼承自: Decoder


new MetaspaceDecoder(config)

構造一個新的 MetaspaceDecoder 物件。

引數量型別描述
configObject

MetaspaceDecoder 的配置物件。

config.add_prefix_spaceboolean

是否在解碼後的字串前新增字首空格。

config.replacement字串

用於替換空格的字串。


metaspaceDecoder.decode_chain() : <code> * </code>

類別: MetaspaceDecoder 的例項方法


tokenizers~Precompiled ⇐ <code> Normalizer </code>

一個應用預編譯字元對映(charsmap)的規範化器。這對於在 C++ 中應用複雜的規範化並將其暴露給 JavaScript 非常有用。

型別: tokenizers 的內部類
繼承自: Normalizer


new Precompiled(config)

建立一個新的 Precompiled 規範化器例項。

引數量型別描述
configObject

Precompiled 規範化器的配置物件。

config.precompiled_charsmapObject

預編譯的字元對映物件。


precompiled.normalize(text) ⇒ <code> string </code>

透過應用預編譯的字元對映來規範化給定的文字。

類別: Precompiled 的例項方法
返回: string - 歸一化後的文字。

引數量型別描述
text字串

要歸一化的文字。


tokenizers~PreTokenizerSequence ⇐ <code> PreTokenizer </code>

一個對輸入文字應用一系列預處理器(pre-tokenizer)的預處理器。

型別: tokenizers 的內部類
擴充套件: PreTokenizer


new PreTokenizerSequence(config)

建立一個 PreTokenizerSequence 例項。

引數量型別描述
configObject

預處理器序列的配置物件。

config.pretokenizersArray.<Object>

一個預處理器配置的陣列。


preTokenizerSequence.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

依次將序列中的每個預處理器應用於輸入文字。

類別: PreTokenizerSequence 的例項方法
返回: Array.<string> - 預分詞後的文字。

引數量型別描述
text字串

要進行預分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~WhitespacePreTokenizer

按詞邊界進行分割(使用以下正則表示式:\w+|[^\w\s]+)。

型別: tokenizers 的內部類


new WhitespacePreTokenizer(config)

建立一個 WhitespacePreTokenizer 例項。

引數量型別描述
configObject

預處理器的配置物件。


whitespacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

透過按詞邊界分割輸入文字來進行預分詞。

類別: WhitespacePreTokenizer 的例項方法
返回: Array.<string> - 透過按空白字元分割輸入文字而產生的分詞陣列。

引數量型別描述
text字串

要進行預分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~WhitespaceSplit ⇐ <code> PreTokenizer </code>

透過空白字元將一段文字分割成單個分詞。

型別: tokenizers 的內部類
擴充套件: PreTokenizer


new WhitespaceSplit(config)

建立一個 WhitespaceSplit 例項。

引數量型別描述
configObject

預處理器的配置物件。


whitespaceSplit.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

透過按空白字元分割輸入文字來進行預分詞。

類別: WhitespaceSplit 的例項方法
返回: Array.<string> - 透過按空白字元分割輸入文字而產生的分詞陣列。

引數量型別描述
text字串

要進行預分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~ReplacePreTokenizer

型別: tokenizers 的內部類


new ReplacePreTokenizer(config)

引數量型別描述
configObject

預分詞器的配置選項。

config.patternObject

用於分割文字的模式。可以是一個字串或一個正則表示式物件。

config.content字串

用來替換模式的內容。


replacePreTokenizer.pre_tokenize_text(text, [options]) ⇒ <code> Array. < string > </code>

透過替換某些字元來對輸入文字進行預分詞。

類別: ReplacePreTokenizer 的例項方法
返回: Array.<string> - 透過替換某些字元而產生的分詞陣列。

引數量型別描述
text字串

要進行預分詞的文字。

[options]Object

預分詞邏輯的附加選項。


tokenizers~BYTES_TO_UNICODE ⇒ <code> Object </code>

返回 utf-8 位元組列表以及到 unicode 字串的對映。特別避免對映到 BPE 程式碼會出錯的空白/控制字元。

類別: tokenizers 的內部常量
返回: Object - 以 utf-8 位元組為鍵,unicode 字串為值的物件。


tokenizers~loadTokenizer(pretrained_model_name_or_path, options) ⇒ <code> Promise. < Array < any > > </code>

從指定路徑載入分詞器。

類別: tokenizers 的內部方法
返回: Promise.<Array<any>> - 一個解析後包含已載入分詞器資訊的 Promise。

引數量型別描述
pretrained_model_name_or_path字串

分詞器目錄的路徑。

選項PretrainedTokenizerOptions

載入分詞器的其他選項。


tokenizers~regexSplit(text, regex) ⇒ <code> Array. < string > </code>

一個輔助函式,用於根據正則表示式分割字串,但保留分隔符。這是必需的,因為 JavaScript 的 .split() 方法不保留分隔符,而將其包裝在捕獲組中會導致現有捕獲組出現問題(由於巢狀)。

類別: tokenizers 的內部方法
返回: Array.<string> - 分割後的字串。

引數量型別描述
text字串

要分割的文字。

regexRegExp

用於分割的正則表示式。


tokenizers~createPattern(pattern, invert) ⇒ <code> RegExp </code> | <code> null </code>

從配置物件構造模式的輔助方法。

類別: tokenizers 的內部方法
返回: RegExp | null - 編譯後的模式。

引數量型別預設描述
patternObject

模式物件。

反轉booleantrue

是否反轉模式。


tokenizers~objectToMap(obj) ⇒ <code> Map. < string, any > </code>

將物件轉換為 Map 的輔助函式。

類別: tokenizers 的內部方法
返回: Map.<string, any> - map。

引數量型別描述
objObject

要轉換的物件。


tokenizers~prepareTensorForDecode(tensor) ⇒ <code> Array. < number > </code>

在解碼前將張量轉換為列表的輔助函式。

類別: tokenizers 的內部方法
返回: Array.<number> - 列表形式的張量。

引數量型別描述
張量張量

要轉換的張量。


tokenizers~clean_up_tokenization(text) ⇒ <code> string </code>

清理簡單的英文分詞產物,如標點前的空格和縮寫形式。

類別: tokenizers 的內部方法
返回: string - 清理後的文字。

引數量型別描述
text字串

要清理的文字。


tokenizers~remove_accents(text) ⇒ <code> string </code>

從字串中移除重音符號的輔助函式。

類別: tokenizers 的內部方法
返回: string - 移除了重音符號的文字。

引數量型別描述
text字串

要移除重音符號的文字。


tokenizers~lowercase_and_remove_accent(text) ⇒ <code> string </code>

將字串轉為小寫並移除重音符號的輔助函式。

類別: tokenizers 的內部方法
返回: string - 已轉為小寫並移除重音符號的文字。

引數量型別描述
text字串

要轉為小寫並移除重音符號的文字。


tokenizers~whitespace_split(text) ⇒ <code> Array. < string > </code>

按空白字元分割字串。

類別: tokenizers 的內部方法
返回: Array.<string> - 分割後的字串。

引數量型別描述
text字串

要分割的文字。


tokenizers~PretrainedTokenizerOptions : <code> Object </code>

特定於分詞器的額外屬性。

類別: tokenizers 的內部 typedef
屬性

名稱型別預設描述
[legacy]booleanfalse

是否應使用分詞器的 legacy 行為。


tokenizers~BPENode : <code> Object </code>

類別: tokenizers 的內部 typedef
屬性

名稱型別描述
token字串

與節點關聯的分詞。

bias數字

節點的位置偏差。

[score]數字

節點的分數。

[prev]BPENode

連結串列中的前一個節點。

[next]BPENode

連結串列中的下一個節點。


tokenizers~SplitDelimiterBehavior : <code> ’ removed ’ </code> | <code> ’ isolated ’ </code> | <code> ’ mergedWithPrevious ’ </code> | <code> ’ mergedWithNext ’ </code> | <code> ’ contiguous ’ </code>

類別: tokenizers 的內部 typedef


tokenizers~PostProcessedOutput : <code> Object </code>

類別: tokenizers 的內部 typedef
屬性

名稱型別描述
tokensArray.<string>

後處理器(post-processor)生成的分詞列表。

[token_type_ids]Array.<number>

後處理器生成的分詞型別 ID 列表。


tokenizers~EncodingSingle : <code> Object </code>

類別: tokenizers 的內部 typedef
屬性

名稱型別描述
input_idsArray.<number>

要輸入到模型中的分詞 ID 列表。

attention_maskArray.<number>

要輸入到模型中的分詞型別 ID 列表

[token_type_ids]Array.<number>

指定模型應關注哪些分詞的索引列表


tokenizers~Message : <code> Object </code>

類別: tokenizers 的內部 typedef
屬性

名稱型別描述
角色字串

訊息的角色(例如,“user” 或 “assistant” 或 “system”)。

內容字串

訊息的內容。


tokenizers~BatchEncoding : <code> Array < number > </code> | <code> Array < Array < number > > </code> | <code> Tensor </code>

儲存分詞器呼叫函式的輸出。

類別: tokenizers 的內部 typedef
屬性

名稱型別描述
input_idsBatchEncodingItem

要輸入到模型中的分詞 ID 列表。

attention_maskBatchEncodingItem

指定模型應關注哪些分詞的索引列表。

[token_type_ids]BatchEncodingItem

要輸入到模型中的分詞型別 ID 列表。


< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.