新增詞符

Python

Rust

Node

AddedToken

class tokenizers.AddedToken

( content single_word = False lstrip = False rstrip = False normalized = True special = False )

引數

content (str) — 詞符的內容
single_word (bool, 預設為 False) — 定義此詞符是否應僅匹配單個單詞。如果為 True，此詞符將永遠不會匹配單詞內部。例如，如果此選項為 False，詞符 ing 將匹配 tokenizing，但如果為 True 則不會匹配。“單詞內部” 的概念由正則表示式中的單詞邊界模式定義（即，詞符應以單詞邊界開始和結束）。
lstrip (bool, 預設為 False) — 定義此詞符是否應去除其左側所有潛在的空白字元。如果為 True，此詞符將貪婪地匹配其左側的任何空白字元。例如，如果我們嘗試在文字 "I saw a [MASK]" 中匹配 lstrip=True 的詞符 [MASK]，我們將匹配到 " [MASK]"。（注意左側的空格）。
rstrip (bool, 預設為 False) — 定義此詞符是否應去除其右側所有潛在的空白字元。如果為 True，此詞符將貪婪地匹配其右側的任何空白字元。它的工作方式與 lstrip 類似，但作用於右側。
normalized (bool, 對於 —meth:~tokenizers.Tokenizer.add_tokens 預設為 True，對於 add_special_tokens() 預設為 False)：定義此詞符是否應與輸入文字的歸一化版本進行匹配。例如，對於新增的詞符 "yesterday" 和一個負責將文字轉為小寫的歸一化器，可以從輸入 "I saw a lion Yesterday" 中提取該詞符。
special (bool, 對於 —meth:~tokenizers.Tokenizer.add_tokens 預設為 False，對於 add_special_tokens() 預設為 False)：定義在解碼時是否應跳過此詞符。

表示可以新增到 Tokenizer 的詞符。它可以有特殊的選項來定義其行為方式。

屬性 content

獲取此 AddedToken 的內容

屬性 lstrip

獲取 lstrip 選項的值

屬性 normalized

獲取 normalized 選項的值

屬性 rstrip

獲取 rstrip 選項的值

屬性 single_word

獲取 single_word 選項的值

< > 在 GitHub 上更新

Tokenizers

新增詞符

AddedToken

class tokenizers.AddedToken