分詞器文件
編碼
並獲得增強的文件體驗
開始使用
編碼
編碼
`Encoding` 表示 `Tokenizer` 的輸出。
注意力掩碼
這向語言模型(LM)指示哪些詞符應被關注,哪些不應被關注。這在批處理序列時尤其重要,因為我們需要應用填充。
與每個詞符關聯的偏移量
這些偏移量讓您能夠對輸入字串進行切片,從而檢索到產生相應詞符的原始部分。
一個包含溢位的 `Encoding` 的 `List`
使用截斷時,`Tokenizer` 會負責將輸出分割成所需數量的片段,以匹配指定的最大長度。此欄位可讓您檢索所有後續的片段。
當您使用成對的序列時,溢位的片段將包含足夠的變化,以覆蓋所有可能的組合,同時遵守提供的最大長度。
生成的序列索引。
它們表示與每個詞符關聯的輸入序列的索引。如果詞符與任何輸入序列無關(例如特殊詞符),則序列 ID 可以為 None。
生成的單詞索引。
它們表示與每個詞符關聯的單詞的索引。當輸入已經預分詞時,它們對應於給定輸入標籤的 ID,否則它們對應於由所使用的 `PreTokenizer` 定義的單詞索引。
對於特殊詞符等(任何非輸入部分生成的詞符),輸出為 `None`。
生成的單詞索引。
此屬性已棄用,並將在未來版本中移除。請改用 `~tokenizers.Encoding.word_ids`。
它們表示與每個詞符關聯的單詞的索引。當輸入已經預分詞時,它們對應於給定輸入標籤的 ID,否則它們對應於由所使用的 `PreTokenizer` 定義的單詞索引。
對於特殊詞符等(任何非輸入部分生成的詞符),輸出為 `None`。
合併
( encodings growing_offsets = True ) → Encoding
引數
- encodings (一個 `List` 型別的 `Encoding`) — 應該合併為一個的編碼列表
- growing_offsets (
bool
, 預設為True
) — 合併時偏移量是否應累加
返回
生成的編碼
將編碼列表合併為一個最終的 `Encoding`
將 `Encoding` 填充到指定長度
獲取給定索引處詞符的偏移量。
返回的偏移量與包含該詞符的輸入序列相關。要確定它屬於哪個輸入序列,必須呼叫 `~tokenizers.Encoding.token_to_sequence()`。
獲取由給定詞符表示的序列的索引。
在一般用例中,對於單個序列或一對序列中的第一個序列,此方法返回 `0`;對於一對序列中的第二個序列,返回 `1`。
獲取在其中一個輸入序列中包含該詞符的單詞的索引。
返回的單詞索引與包含該詞符的輸入序列相關。要確定它屬於哪個輸入序列,必須呼叫 `~tokenizers.Encoding.token_to_sequence()`。
將 `Encoding` 截斷至指定長度
如果此 `Encoding` 表示多個序列,在截斷時此資訊會丟失。它將被視為表示單個序列。