編碼

Python

Rust

Node

編碼

class tokenizers.Encoding

( )

`Encoding` 表示 `Tokenizer` 的輸出。

property attention_mask

List[int]

注意力掩碼

這向語言模型（LM）指示哪些詞符應被關注，哪些不應被關注。這在批處理序列時尤其重要，因為我們需要應用填充。

property ids

List[int]

ID 列表

生成的 ID

ID 是語言模型的主要輸入。它們是詞符索引，是 LM 理解的數值表示。

property n_sequences

int

此 `Encoding` 中的序列數量

表示的序列數量

property offsets

一個 `List` 型別的 `Tuple[int, int]`

偏移量列表

與每個詞符關聯的偏移量

這些偏移量讓您能夠對輸入字串進行切片，從而檢索到產生相應詞符的原始部分。

property overflowing

一個包含溢位的 `Encoding` 的 `List`

使用截斷時，`Tokenizer` 會負責將輸出分割成所需數量的片段，以匹配指定的最大長度。此欄位可讓您檢索所有後續的片段。

當您使用成對的序列時，溢位的片段將包含足夠的變化，以覆蓋所有可能的組合，同時遵守提供的最大長度。

property sequence_ids

一個 `List` 型別的 `Optional[int]`

一個可選的序列索引列表。

生成的序列索引。

它們表示與每個詞符關聯的輸入序列的索引。如果詞符與任何輸入序列無關（例如特殊詞符），則序列 ID 可以為 None。

property special_tokens_mask

List[int]

特殊詞符掩碼

這指示哪些詞符是特殊詞符，哪些不是。

property tokens

List[str]

詞符列表

生成的詞符

它們是 ID 的字串表示。

property type_ids

List[int]

型別 ID 列表

生成的型別 ID

通常用於序列分類或問答等任務，這些詞符讓 LM 知道每個詞符對應哪個輸入序列。

property word_ids

一個 `List` 型別的 `Optional[int]`

一個可選的單詞索引列表。

生成的單詞索引。

它們表示與每個詞符關聯的單詞的索引。當輸入已經預分詞時，它們對應於給定輸入標籤的 ID，否則它們對應於由所使用的 `PreTokenizer` 定義的單詞索引。

對於特殊詞符等（任何非輸入部分生成的詞符），輸出為 `None`。

property words

一個 `List` 型別的 `Optional[int]`

一個可選的單詞索引列表。

生成的單詞索引。

此屬性已棄用，並將在未來版本中移除。請改用 `~tokenizers.Encoding.word_ids`。

對於特殊詞符等（任何非輸入部分生成的詞符），輸出為 `None`。

char_to_token

( char_pos sequence_index = 0 ) → int

引數

char_pos (int) — 輸入字串中字元的位置
sequence_index (int, 預設為 0) — 包含目標字元的序列的索引

int

在編碼序列中包含此字元的詞符的索引

獲取在輸入序列中給定位置包含該字元的詞符。

char_to_word

( char_pos sequence_index = 0 ) → int

引數

char_pos (int) — 輸入字串中字元的位置
sequence_index (int, 預設為 0) — 包含目標字元的序列的索引

int

在輸入序列中包含此字元的單詞的索引

獲取在輸入序列中給定位置包含該字元的單詞。

合併

( encodings growing_offsets = True ) → Encoding

引數

encodings (一個 `List` 型別的 `Encoding`) — 應該合併為一個的編碼列表
growing_offsets (bool, 預設為 True) — 合併時偏移量是否應累加

編碼

生成的編碼

將編碼列表合併為一個最終的 `Encoding`

填充

( length direction = 'right' pad_id = 0 pad_type_id = 0 pad_token = '[PAD]' )

引數

length (int) — 期望的長度

direction — (str, 預設為 right): 期望的填充方向。可以是 right 或 left
pad_id (int, 預設為 0) — 對應於填充詞符的 ID
pad_type_id (int, 預設為 0) — 對應於填充詞符的型別 ID
pad_token (str, 預設為 [PAD]) — 要使用的填充詞符

將 `Encoding` 填充到指定長度

set_sequence_id

( sequence_id )

設定給定的序列索引

為包含在此 `Encoding` 中的整個詞符範圍設定給定的序列索引。

token_to_chars

( token_index ) → Tuple[int, int]

引數

token_index (int) — 編碼序列中詞符的索引。

Tuple[int, int]

詞符偏移量 (first, last + 1)

獲取給定索引處詞符的偏移量。

返回的偏移量與包含該詞符的輸入序列相關。要確定它屬於哪個輸入序列，必須呼叫 `~tokenizers.Encoding.token_to_sequence()`。

token_to_sequence

( token_index ) → int

引數

token_index (int) — 編碼序列中詞符的索引。

int

給定詞符的序列 ID

獲取由給定詞符表示的序列的索引。

在一般用例中，對於單個序列或一對序列中的第一個序列，此方法返回 `0`；對於一對序列中的第二個序列，返回 `1`。

token_to_word

( token_index ) → int

引數

token_index (int) — 編碼序列中詞符的索引。

int

相關輸入序列中單詞的索引。

獲取在其中一個輸入序列中包含該詞符的單詞的索引。

返回的單詞索引與包含該詞符的輸入序列相關。要確定它屬於哪個輸入序列，必須呼叫 `~tokenizers.Encoding.token_to_sequence()`。

truncate

( max_length stride = 0 direction = 'right' )

引數

max_length (int) — 期望的長度
stride (int, 預設為 0) — 每個溢位片段中要包含的前文內容的長度
direction (str, 預設為 right) — 截斷方向

將 `Encoding` 截斷至指定長度

如果此 `Encoding` 表示多個序列，在截斷時此資訊會丟失。它將被視為表示單個序列。

word_to_chars

( word_index sequence_index = 0 ) → Tuple[int, int]

引數

word_index (int) — 其中一個輸入序列中單詞的索引。
sequence_index (int, 預設為 0) — 包含目標單詞的序列的索引

Tuple[int, int]

字元範圍（span） (first, last + 1)

獲取在其中一個輸入序列中給定索引處單詞的偏移量。

word_to_tokens

( word_index sequence_index = 0 ) → Tuple[int, int]

引數

word_index (int) — 其中一個輸入序列中單詞的索引。
sequence_index (int, 預設為 0) — 包含目標單詞的序列的索引

Tuple[int, int]

詞符範圍: (first, last + 1)

獲取在其中一個輸入序列中給定索引處單詞對應的編碼詞符。

< > 在 GitHub 上更新

分詞器

編碼

編碼

class tokenizers.Encoding

char_to_token

char_to_word

合併

填充

set_sequence_id

token_to_chars

token_to_sequence

token_to_word

truncate

word_to_chars

word_to_tokens