分詞器文件

解碼器

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

解碼器

Python
Rust
Node

BPEDecoder

class tokenizers.decoders.BPEDecoder

( suffix = '</w>' )

引數

  • suffix (str, 可選, 預設為 </w>) — 用於標識單詞結尾的字尾。在解碼過程中,此後綴將被替換為空格。

BPEDecoder 解碼器

ByteLevel

class tokenizers.decoders.ByteLevel

( )

ByteLevel 解碼器

此解碼器應與 ByteLevel PreTokenizer 配合使用。

CTC

class tokenizers.decoders.CTC

( pad_token = '<pad>' word_delimiter_token = '|' cleanup = True )

引數

  • pad_token (str, 可選, 預設為 <pad>) — CTC 用來界定新詞符的填充詞符。
  • word_delimiter_token (str, 可選, 預設為 |) — 單詞分隔符。它將被替換為空格
  • cleanup (bool, 可選, 預設為 True) — 是否清理一些分詞過程中的殘留。主要是標點符號前的空格和一些英語縮寫形式。

CTC 解碼器

Metaspace

class tokenizers.decoders.Metaspace

( )

引數

  • replacement (str, 可選, 預設為 ) — 替換字元。必須是單個字元。預設使用元符號 (U+2581)(與 SentencePiece 中相同)。
  • prepend_scheme (str, 可選, 預設為 "always") — 是否在第一個單詞前新增空格(如果尚不存在)。這使我們能夠像處理 say hello 一樣處理 hello。可選值:“always”、“never”、“first”。“first” 意味著僅在第一個詞符前新增空格(當使用特殊詞符或其他預分詞器時,此選項很有用)。

Metaspace 解碼器

WordPiece

class tokenizers.decoders.WordPiece

( prefix = '##' cleanup = True )

引數

  • prefix (str, 可選, 預設為 ##) — 用於非單詞開頭的子詞的字首。
  • cleanup (bool, 可選, 預設為 True) — 是否清理一些分詞過程中的殘留。主要是標點符號前的空格和一些英語縮寫形式。

WordPiece 解碼器

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.