分詞器文件
新增詞符
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
新增詞符
Python
Rust
Node
AddedToken
class tokenizers.AddedToken
( content single_word = False lstrip = False rstrip = False normalized = True special = False )
引數
- content (
str
) — 詞符的內容 - single_word (
bool
, 預設為False
) — 定義此詞符是否應僅匹配單個單詞。如果為True
,此詞符將永遠不會匹配單詞內部。例如,如果此選項為False
,詞符ing
將匹配tokenizing
,但如果為True
則不會匹配。“單詞內部” 的概念由正則表示式中的單詞邊界模式定義(即,詞符應以單詞邊界開始和結束)。 - lstrip (
bool
, 預設為False
) — 定義此詞符是否應去除其左側所有潛在的空白字元。如果為True
,此詞符將貪婪地匹配其左側的任何空白字元。例如,如果我們嘗試在文字"I saw a [MASK]"
中匹配lstrip=True
的詞符[MASK]
,我們將匹配到" [MASK]"
。(注意左側的空格)。 - rstrip (
bool
, 預設為False
) — 定義此詞符是否應去除其右側所有潛在的空白字元。如果為True
,此詞符將貪婪地匹配其右側的任何空白字元。它的工作方式與lstrip
類似,但作用於右側。 - normalized (
bool
, 對於 —meth:~tokenizers.Tokenizer.add_tokens 預設為True
,對於add_special_tokens()
預設為False
):定義此詞符是否應與輸入文字的歸一化版本進行匹配。例如,對於新增的詞符"yesterday"
和一個負責將文字轉為小寫的歸一化器,可以從輸入"I saw a lion Yesterday"
中提取該詞符。 - special (
bool
, 對於 —meth:~tokenizers.Tokenizer.add_tokens 預設為False
,對於add_special_tokens()
預設為False
):定義在解碼時是否應跳過此詞符。
表示可以新增到 Tokenizer 的詞符。它可以有特殊的選項來定義其行為方式。