分詞器文件
新增詞符
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
新增詞符
Python
Rust
Node
AddedToken
class tokenizers.AddedToken
( content single_word = False lstrip = False rstrip = False normalized = True special = False )
引數
- content (
str) — 詞符的內容 - single_word (
bool, 預設為False) — 定義此詞符是否應僅匹配單個單詞。如果為True,此詞符將永遠不會匹配單詞內部。例如,如果此選項為False,詞符ing將匹配tokenizing,但如果為True則不會匹配。“單詞內部” 的概念由正則表示式中的單詞邊界模式定義(即,詞符應以單詞邊界開始和結束)。 - lstrip (
bool, 預設為False) — 定義此詞符是否應去除其左側所有潛在的空白字元。如果為True,此詞符將貪婪地匹配其左側的任何空白字元。例如,如果我們嘗試在文字"I saw a [MASK]"中匹配lstrip=True的詞符[MASK],我們將匹配到" [MASK]"。(注意左側的空格)。 - rstrip (
bool, 預設為False) — 定義此詞符是否應去除其右側所有潛在的空白字元。如果為True,此詞符將貪婪地匹配其右側的任何空白字元。它的工作方式與lstrip類似,但作用於右側。 - normalized (
bool, 對於 —meth:~tokenizers.Tokenizer.add_tokens 預設為True,對於add_special_tokens()預設為False):定義此詞符是否應與輸入文字的歸一化版本進行匹配。例如,對於新增的詞符"yesterday"和一個負責將文字轉為小寫的歸一化器,可以從輸入"I saw a lion Yesterday"中提取該詞符。 - special (
bool, 對於 —meth:~tokenizers.Tokenizer.add_tokens 預設為False,對於add_special_tokens()預設為False):定義在解碼時是否應跳過此詞符。
表示可以新增到 Tokenizer 的詞符。它可以有特殊的選項來定義其行為方式。