Transformers 文件

DPR

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

DPR

概述

密集段落檢索（Dense Passage Retrieval, DPR）是一套用於最先進的開放領域問答研究的工具和模型。它由 Vladimir Karpukhin、Barlas Oğuz、Sewon Min、Patrick Lewis、Ledell Wu、Sergey Edunov、Danqi Chen 和 Wen-tau Yih 在論文《開放領域問答的密集段落檢索》中提出。

論文摘要如下：

開放領域問答依賴於高效的段落檢索來選擇候選上下文，其中傳統的稀疏向量空間模型，如 TF-IDF 或 BM25，是事實上的標準方法。在這項工作中，我們展示了僅使用密集表示就可以實際實現檢索，其中嵌入是透過一個簡單的雙編碼器框架從少量問題和段落中學習得到的。當在一系列廣泛的開放領域問答資料集上進行評估時，我們的密集檢索器在 top-20 段落檢索準確率方面，比強大的 Lucene-BM25 系統高出 9%-19% 的絕對百分比，並幫助我們的端到端問答系統在多個開放領域問答基準上建立了新的技術水平。

此模型由 lhoestq 貢獻。原始程式碼可以在這裡找到。

使用技巧

DPR 包含三個模型
- 問題編碼器：將問題編碼為向量
- 上下文編碼器：將上下文編碼為向量
- 閱讀器：在檢索到的上下文中提取問題的答案，並附帶一個相關性分數（如果推斷出的答案範圍確實回答了問題，則分數高）。

DPRConfig

class transformers.DPRConfig

< 源 >

( vocab_size = 30522 hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_act = 'gelu' hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 512 type_vocab_size = 2 initializer_range = 0.02 layer_norm_eps = 1e-12 pad_token_id = 0 position_embedding_type = 'absolute' projection_dim: int = 0 **kwargs )

引數

vocab_size (int, 可選, 預設為 30522) — DPR 模型的詞彙表大小。定義了可以由傳遞給 BertModel 的 forward 方法的 inputs_ids 表示的不同標記。
hidden_size (int, 可選, 預設為 768) — 編碼器層和池化層的維度。
num_hidden_layers (int, 可選, 預設為 12) — Transformer 編碼器中的隱藏層數量。
num_attention_heads (int, 可選, 預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。
intermediate_size (int, 可選, 預設為 3072) — Transformer 編碼器中“中間層”（即前饋層）的維度。
hidden_act (str 或 function, 可選, 預設為 "gelu") — 編碼器和池化層中的非線性啟用函式（函式或字串）。如果為字串，則支援 "gelu"、"relu"、"silu" 和 "gelu_new"。
hidden_dropout_prob (float, 可選, 預設為 0.1) — 嵌入層、編碼器和池化層中所有全連線層的丟棄機率。
attention_probs_dropout_prob (float, 可選, 預設為 0.1) — 注意力機率的丟棄率。
max_position_embeddings (int, 可選, 預設為 512) — 此模型可能使用的最大序列長度。通常，為防止萬一，將其設定為一個較大的值（例如 512、1024 或 2048）。
type_vocab_size (int, 可選, 預設為 2) — 傳入 BertModel 的 token_type_ids 的詞彙表大小。
initializer_range (float, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。
layer_norm_eps (float, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon 值。
pad_token_id (int, 可選, 預設為 0) — 填充標記 ID。
position_embedding_type (str, 可選, 預設為 "absolute") — 位置嵌入的型別。從 "absolute"、"relative_key"、"relative_key_query" 中選擇一個。對於位置嵌入，請使用 "absolute"。有關 "relative_key" 的更多資訊，請參閱《帶相對位置表示的自注意力》（Shaw 等人）。有關 "relative_key_query" 的更多資訊，請參閱《用更好的相對位置嵌入改進 Transformer 模型》（Huang 等人）中的 方法 4。
projection_dim (int, 可選, 預設為 0) — 上下文和問題編碼器投影的維度。如果設定為零（預設值），則不進行投影。

DPRConfig 是用於儲存 DPRModel 配置的配置類。

這是用於儲存 DPRContextEncoder、DPRQuestionEncoder 或 DPRReader 配置的配置類。它用於根據指定的引數例項化 DPR 模型的元件，定義模型元件的架構。使用預設值例項化配置將產生與 DPRContextEncoder facebook/dpr-ctx_encoder-single-nq-base 架構類似的配置。

這個類是 BertConfig 的子類。請檢視超類以獲取所有 kwargs 的文件。

示例

>>> from transformers import DPRConfig, DPRContextEncoder

>>> # Initializing a DPR facebook/dpr-ctx_encoder-single-nq-base style configuration
>>> configuration = DPRConfig()

>>> # Initializing a model (with random weights) from the facebook/dpr-ctx_encoder-single-nq-base style configuration
>>> model = DPRContextEncoder(configuration)

>>> # Accessing the model configuration
>>> configuration = model.config

DPRContextEncoderTokenizer

class transformers.DPRContextEncoderTokenizer

< 源 >

( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None clean_up_tokenization_spaces = True **kwargs )

構造一個 DPRContextEncoder 分詞器。

DPRContextEncoderTokenizer 與 BertTokenizer 相同，並執行端到端的標記化：標點符號分割和詞片化。

有關引數的使用示例和文件，請參閱超類 BertTokenizer。

DPRContextEncoderTokenizerFast

class transformers.DPRContextEncoderTokenizerFast

< 源 >

( vocab_file = None tokenizer_file = None do_lower_case = True unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' tokenize_chinese_chars = True strip_accents = None **kwargs )

構造一個“快速”的 DPRContextEncoder 分詞器（由 HuggingFace 的 tokenizers 庫支援）。

DPRContextEncoderTokenizerFast 與 BertTokenizerFast 相同，並執行端到端的標記化：標點符號分割和詞片化。

有關引數的使用示例和文件，請參閱超類 BertTokenizerFast。

DPRQuestionEncoderTokenizer

class transformers.DPRQuestionEncoderTokenizer

< 源 >

構造一個 DPRQuestionEncoder 分詞器。

DPRQuestionEncoderTokenizer 與 BertTokenizer 相同，並執行端到端的標記化：標點符號分割和詞片化。

有關引數的使用示例和文件，請參閱超類 BertTokenizer。

Transformers

DPR

概述

使用技巧

DPRConfig

class transformers.DPRConfig

DPRContextEncoderTokenizer

class transformers.DPRContextEncoderTokenizer

DPRContextEncoderTokenizerFast

class transformers.DPRContextEncoderTokenizerFast

DPRQuestionEncoderTokenizer

class transformers.DPRQuestionEncoderTokenizer

DPRQuestionEncoderTokenizerFast

class transformers.DPRQuestionEncoderTokenizerFast

DPRReaderTokenizer

class transformers.DPRReaderTokenizer

DPRReaderTokenizerFast

class transformers.DPRReaderTokenizerFast

DPR 特定輸出

class transformers.models.dpr.modeling_dpr.DPRContextEncoderOutput

class transformers.models.dpr.modeling_dpr.DPRQuestionEncoderOutput

class transformers.DPRReaderOutput

DPRContextEncoder

class transformers.DPRContextEncoder

forward

DPRQuestionEncoder

class transformers.DPRQuestionEncoder

forward

DPRReader

class transformers.DPRReader

forward

TFDPRContextEncoder

class transformers.TFDPRContextEncoder

呼叫

TFDPRQuestionEncoder

class transformers.TFDPRQuestionEncoder

呼叫

TFDPRReader

class transformers.TFDPRReader

呼叫