分詞器文件

新增詞符

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

新增詞符

Python
Rust
Node

AddedToken

class tokenizers.AddedToken

( content single_word = False lstrip = False rstrip = False normalized = True special = False )

引數

  • content (str) — 詞符的內容
  • single_word (bool, 預設為 False) — 定義此詞符是否應僅匹配單個單詞。如果為 True,此詞符將永遠不會匹配單詞內部。例如,如果此選項為 False,詞符 ing 將匹配 tokenizing,但如果為 True 則不會匹配。“單詞內部” 的概念由正則表示式中的單詞邊界模式定義(即,詞符應以單詞邊界開始和結束)。
  • lstrip (bool, 預設為 False) — 定義此詞符是否應去除其左側所有潛在的空白字元。如果為 True,此詞符將貪婪地匹配其左側的任何空白字元。例如,如果我們嘗試在文字 "I saw a [MASK]" 中匹配 lstrip=True 的詞符 [MASK],我們將匹配到 " [MASK]"。(注意左側的空格)。
  • rstrip (bool, 預設為 False) — 定義此詞符是否應去除其右側所有潛在的空白字元。如果為 True,此詞符將貪婪地匹配其右側的任何空白字元。它的工作方式與 lstrip 類似,但作用於右側。
  • normalized (bool, 對於 —meth:~tokenizers.Tokenizer.add_tokens 預設為 True,對於 add_special_tokens() 預設為 False):定義此詞符是否應與輸入文字的歸一化版本進行匹配。例如,對於新增的詞符 "yesterday" 和一個負責將文字轉為小寫的歸一化器,可以從輸入 "I saw a lion Yesterday" 中提取該詞符。
  • special (bool, 對於 —meth:~tokenizers.Tokenizer.add_tokens 預設為 False,對於 add_special_tokens() 預設為 False):定義在解碼時是否應跳過此詞符。

表示可以新增到 Tokenizer 的詞符。它可以有特殊的選項來定義其行為方式。

屬性 content

獲取此 AddedToken 的內容

屬性 lstrip

獲取 lstrip 選項的值

屬性 normalized

獲取 normalized 選項的值

屬性 rstrip

獲取 rstrip 選項的值

屬性 single_word

獲取 single_word 選項的值

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.