分詞器文件

編碼

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

編碼

Python
Rust
Node

編碼

class tokenizers.Encoding

( )

`Encoding` 表示 `Tokenizer` 的輸出。

property attention_mask

返回

List[int]

注意力掩碼

注意力掩碼

這向語言模型(LM)指示哪些詞符應被關注,哪些不應被關注。這在批處理序列時尤其重要,因為我們需要應用填充。

property ids

返回

List[int]

ID 列表

生成的 ID

ID 是語言模型的主要輸入。它們是詞符索引,是 LM 理解的數值表示。

property n_sequences

返回

int

`Encoding` 中的序列數量

表示的序列數量

property offsets

返回

一個 `List` 型別的 `Tuple[int, int]`

偏移量列表

與每個詞符關聯的偏移量

這些偏移量讓您能夠對輸入字串進行切片,從而檢索到產生相應詞符的原始部分。

property overflowing

一個包含溢位的 `Encoding` 的 `List`

使用截斷時,`Tokenizer` 會負責將輸出分割成所需數量的片段,以匹配指定的最大長度。此欄位可讓您檢索所有後續的片段。

當您使用成對的序列時,溢位的片段將包含足夠的變化,以覆蓋所有可能的組合,同時遵守提供的最大長度。

property sequence_ids

返回

一個 `List` 型別的 `Optional[int]`

一個可選的序列索引列表。

生成的序列索引。

它們表示與每個詞符關聯的輸入序列的索引。如果詞符與任何輸入序列無關(例如特殊詞符),則序列 ID 可以為 None。

property special_tokens_mask

返回

List[int]

特殊詞符掩碼

特殊詞符掩碼

這指示哪些詞符是特殊詞符,哪些不是。

property tokens

返回

List[str]

詞符列表

生成的詞符

它們是 ID 的字串表示。

property type_ids

返回

List[int]

型別 ID 列表

生成的型別 ID

通常用於序列分類或問答等任務,這些詞符讓 LM 知道每個詞符對應哪個輸入序列。

property word_ids

返回

一個 `List` 型別的 `Optional[int]`

一個可選的單詞索引列表。

生成的單詞索引。

它們表示與每個詞符關聯的單詞的索引。當輸入已經預分詞時,它們對應於給定輸入標籤的 ID,否則它們對應於由所使用的 `PreTokenizer` 定義的單詞索引。

對於特殊詞符等(任何非輸入部分生成的詞符),輸出為 `None`。

property words

返回

一個 `List` 型別的 `Optional[int]`

一個可選的單詞索引列表。

生成的單詞索引。

此屬性已棄用,並將在未來版本中移除。請改用 `~tokenizers.Encoding.word_ids`。

它們表示與每個詞符關聯的單詞的索引。當輸入已經預分詞時,它們對應於給定輸入標籤的 ID,否則它們對應於由所使用的 `PreTokenizer` 定義的單詞索引。

對於特殊詞符等(任何非輸入部分生成的詞符),輸出為 `None`。

char_to_token

( char_pos sequence_index = 0 ) int

引數

  • char_pos (int) — 輸入字串中字元的位置
  • sequence_index (int, 預設為 0) — 包含目標字元的序列的索引

返回

int

在編碼序列中包含此字元的詞符的索引

獲取在輸入序列中給定位置包含該字元的詞符。

char_to_word

( char_pos sequence_index = 0 ) int

引數

  • char_pos (int) — 輸入字串中字元的位置
  • sequence_index (int, 預設為 0) — 包含目標字元的序列的索引

返回

int

在輸入序列中包含此字元的單詞的索引

獲取在輸入序列中給定位置包含該字元的單詞。

合併

( encodings growing_offsets = True ) Encoding

引數

  • encodings (一個 `List` 型別的 `Encoding`) — 應該合併為一個的編碼列表
  • growing_offsets (bool, 預設為 True) — 合併時偏移量是否應累加

返回

編碼

生成的編碼

將編碼列表合併為一個最終的 `Encoding`

填充

( length direction = 'right' pad_id = 0 pad_type_id = 0 pad_token = '[PAD]' )

引數

  • length (int) — 期望的長度

    direction — (str, 預設為 right): 期望的填充方向。可以是 rightleft

  • pad_id (int, 預設為 0) — 對應於填充詞符的 ID
  • pad_type_id (int, 預設為 0) — 對應於填充詞符的型別 ID
  • pad_token (str, 預設為 [PAD]) — 要使用的填充詞符

`Encoding` 填充到指定長度

set_sequence_id

( sequence_id )

設定給定的序列索引

為包含在此 `Encoding` 中的整個詞符範圍設定給定的序列索引。

token_to_chars

( token_index ) Tuple[int, int]

引數

  • token_index (int) — 編碼序列中詞符的索引。

返回

Tuple[int, int]

詞符偏移量 (first, last + 1)

獲取給定索引處詞符的偏移量。

返回的偏移量與包含該詞符的輸入序列相關。要確定它屬於哪個輸入序列,必須呼叫 `~tokenizers.Encoding.token_to_sequence()`。

token_to_sequence

( token_index ) int

引數

  • token_index (int) — 編碼序列中詞符的索引。

返回

int

給定詞符的序列 ID

獲取由給定詞符表示的序列的索引。

在一般用例中,對於單個序列或一對序列中的第一個序列,此方法返回 `0`;對於一對序列中的第二個序列,返回 `1`。

token_to_word

( token_index ) int

引數

  • token_index (int) — 編碼序列中詞符的索引。

返回

int

相關輸入序列中單詞的索引。

獲取在其中一個輸入序列中包含該詞符的單詞的索引。

返回的單詞索引與包含該詞符的輸入序列相關。要確定它屬於哪個輸入序列,必須呼叫 `~tokenizers.Encoding.token_to_sequence()`。

truncate

( max_length stride = 0 direction = 'right' )

引數

  • max_length (int) — 期望的長度
  • stride (int, 預設為 0) — 每個溢位片段中要包含的前文內容的長度
  • direction (str, 預設為 right) — 截斷方向

`Encoding` 截斷至指定長度

如果此 `Encoding` 表示多個序列,在截斷時此資訊會丟失。它將被視為表示單個序列。

word_to_chars

( word_index sequence_index = 0 ) Tuple[int, int]

引數

  • word_index (int) — 其中一個輸入序列中單詞的索引。
  • sequence_index (int, 預設為 0) — 包含目標單詞的序列的索引

返回

Tuple[int, int]

字元範圍(span) (first, last + 1)

獲取在其中一個輸入序列中給定索引處單詞的偏移量。

word_to_tokens

( word_index sequence_index = 0 ) Tuple[int, int]

引數

  • word_index (int) — 其中一個輸入序列中單詞的索引。
  • sequence_index (int, 預設為 0) — 包含目標單詞的序列的索引

返回

Tuple[int, int]

詞符範圍: (first, last + 1)

獲取在其中一個輸入序列中給定索引處單詞對應的編碼詞符。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.