Transformers 文件

RAG

Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

RAG

概述

檢索增強生成 (“RAG”) 模型結合了預訓練的密集檢索 (DPR) 模型和序列到序列模型的強大功能。RAG 模型檢索文件，將其傳遞給序列到序列模型，然後進行邊緣化以生成輸出。檢索器和序列到序列模組均從預訓練模型初始化，並進行聯合微調，從而使檢索和生成都能適應下游任務。

它基於 Patrick Lewis、Ethan Perez、Aleksandara Piktus、Fabio Petroni、Vladimir Karpukhin、Naman Goyal、Heinrich Küttler、Mike Lewis、Wen-tau Yih、Tim Rocktäschel、Sebastian Riedel、Douwe Kiela 合著的論文《用於知識密集型 NLP 任務的檢索增強生成》。

論文摘要如下：

大型預訓練語言模型已被證明可以在其引數中儲存事實知識，並在下游 NLP 任務上進行微調時取得最先進的結果。然而，它們訪問和精確操縱知識的能力仍然有限，因此在知識密集型任務上，它們的效能落後於特定任務的架構。此外，為其決策提供來源並更新其世界知識仍然是開放的研究問題。具有對顯式非引數記憶體的可微分訪問機制的預訓練模型可以克服此問題，但迄今為止僅針對提取式下游任務進行了研究。我們探索了一種用於檢索增強生成 (RAG) 的通用微調方法——這些模型將預訓練的引數記憶和非引數記憶相結合以進行語言生成。我們引入了 RAG 模型，其中引數記憶是預訓練的 seq2seq 模型，非引數記憶是維基百科的密集向量索引，透過預訓練的神經檢索器訪問。我們比較了兩種 RAG 公式，一種在整個生成序列中使用相同的檢索到的段落進行條件，另一種可以為每個 token 使用不同的段落。我們對我們的模型進行微調，並在各種知識密集型 NLP 任務上進行評估，並在三個開放域問答任務上取得了最先進的成果，超越了引數 seq2seq 模型和特定任務的檢索提取架構。對於語言生成任務，我們發現 RAG 模型比最先進的僅引數 seq2seq 基線生成更具體、多樣化和事實性更強的語言。

該模型由 ola13 貢獻。

使用技巧

檢索增強生成 (“RAG”) 模型結合了預訓練的密集檢索 (DPR) 和 Seq2Seq 模型的強大功能。RAG 模型檢索文件，將其傳遞給 seq2seq 模型，然後進行邊緣化以生成輸出。檢索器和 seq2seq 模組均從預訓練模型初始化，並進行聯合微調，從而使檢索和生成都能適應下游任務。

RagConfig

class transformers.RagConfig

< 來源 >

( vocab_size = None is_encoder_decoder = True prefix = None bos_token_id = None pad_token_id = None eos_token_id = None decoder_start_token_id = None title_sep = ' / ' doc_sep = ' // ' n_docs = 5 max_combined_length = 300 retrieval_vector_size = 768 retrieval_batch_size = 8 dataset = 'wiki_dpr' dataset_split = 'train' index_name = 'compressed' index_path = None passages_path = None use_dummy_dataset = False reduce_loss = False label_smoothing = 0.0 do_deduplication = True exclude_bos_score = False do_marginalize = False output_retrieved = False use_cache = True forced_eos_token_id = None dataset_revision = None **kwargs )

引數

title_sep (str, 可選, 預設為 " / ") — 當呼叫 RagRetriever 時，在檢索到的文件標題和文字之間插入的分隔符。
doc_sep (str, 可選, 預設為 " // ") — 當呼叫 RagRetriever 時，在檢索到的文件文字和原始輸入之間插入的分隔符。
n_docs (int, 可選, 預設為 5) — 要檢索的文件數量。
max_combined_length (int, 可選, 預設為 300) — 由 __call__() 返回的上下文輸入的***大***長度。
retrieval_vector_size (int, 可選, 預設為 768) — RagRetriever 索引的文件嵌入維度。
retrieval_batch_size (int, 可選, 預設為 8) — 檢索批處理大小，定義為同時向 RagRetriever 中封裝的 faiss 索引發出的查詢數量。
dataset (str, 可選, 預設為 "wiki_dpr") — HuggingFace 資料集中索引資料集的識別符號（使用 datasets.list_datasets() 列出所有可用資料集和 ID）。
dataset_split (str, 可選, 預設為 "train") — 要載入的 dataset 的分割。
index_name (str, 可選, 預設為 "compressed") — 與 dataset 關聯的索引名稱。可以選擇 "legacy"、"exact" 和 "compressed"。
index_path (str, 可選) — 序列化 faiss 索引在磁碟上的路徑。
passages_path (str, 可選) — 與 faiss 索引相容的文字段落路徑。如果使用 LegacyIndex 則為必填項。
use_dummy_dataset (bool, 可選, 預設為 False) — 是否載入 dataset 指定資料集的“虛擬”變體。
label_smoothing (float, 可選, 預設為 0.0) — 僅在 return_loss 設定為 True 時相關。控制損失計算中用於標籤平滑的 epsilon 引數值。如果設定為 0，則不執行標籤平滑。
do_marginalize (bool, 可選, 預設為 False) — 如果為 True，則透過使用 torch.nn.functional.log_softmax 對所有文件的 logits 進行邊緣化。
reduce_loss (bool, 可選, 預設為 False) — 是否使用 torch.Tensor.sum 操作來減少 NLL 損失。
do_deduplication (bool, 可選, 預設為 True) — 是否對給定輸入的來自不同上下文文件的生成進行去重。如果在分散式後端進行訓練時使用，則必須設定為 False。
exclude_bos_score (bool, 可選, 預設為 False) — 計算損失時是否忽略 BOS token。
output_retrieved(bool, 可選, 預設為 False) — 如果設定為 True，則返回 retrieved_doc_embeds、retrieved_doc_ids、context_input_ids 和 context_attention_mask。有關更多詳細資訊，請參閱返回的張量。
use_cache (bool, 可選, 預設為 True) — 模型是否應返回***後***的鍵/值注意力（並非所有模型都使用）。
forced_eos_token_id (int, 可選) — 達到 max_length 時強制作為最後一個生成的 token 的 ID。通常設定為 eos_token_id。

RagConfig 儲存 Rag模型 的配置。配置物件繼承自 PretrainedConfig，可用於控制模型輸出。有關更多資訊，請閱讀 PretrainedConfig 文件。

from_question_encoder_generator_configs

< 來源 >

( question_encoder_config: PretrainedConfig generator_config: PretrainedConfig **kwargs ) → EncoderDecoderConfig

EncoderDecoderConfig

一個配置物件的例項

從預訓練編碼器模型配置和解碼器模型配置例項化一個 EncoderDecoderConfig（或派生類）。

RagTokenizer

class transformers.RagTokenizer

< 來源 >

( question_encoder generator )

Rag 特定輸出

class transformers.models.rag.modeling_rag.RetrievAugLMMarginOutput

< 來源 >

( loss: typing.Optional[torch.FloatTensor] = None logits: typing.Optional[torch.FloatTensor] = None doc_scores: typing.Optional[torch.FloatTensor] = None past_key_values: typing.Optional[list[torch.FloatTensor]] = None retrieved_doc_embeds: typing.Optional[torch.FloatTensor] = None retrieved_doc_ids: typing.Optional[torch.LongTensor] = None context_input_ids: typing.Optional[torch.LongTensor] = None context_attention_mask: typing.Optional[torch.LongTensor] = None question_encoder_last_hidden_state: typing.Optional[torch.FloatTensor] = None question_enc_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None question_enc_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None generator_enc_last_hidden_state: typing.Optional[torch.FloatTensor] = None generator_enc_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None generator_enc_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None generator_dec_hidden_states: typing.Optional[tuple[torch.FloatTensor, ...]] = None generator_dec_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None generator_cross_attentions: typing.Optional[tuple[torch.FloatTensor, ...]] = None )

引數

loss (torch.FloatTensor，形狀為 (1,)，可選，當提供 labels 時返回) — 語言建模損失。
logits (torch.FloatTensor，形狀為 (batch_size, sequence_length, config.vocab_size)) — 語言建模頭的預測分數。分數可能在所有文件中針對每個詞彙標記進行邊緣化。
doc_scores (torch.FloatTensor，形狀為 (batch_size, config.n_docs)) — 每個檢索到的文件嵌入（參見 retrieved_doc_embeds）與 question_encoder_last_hidden_state 之間的分數。
past_key_values (list[torch.FloatTensor]，可選，當傳遞 use_cache=True 或 config.use_cache=True 時返回) — 長度為 config.n_layers 的 torch.FloatTensor 列表，每個張量的形狀為 (2, batch_size, num_heads, sequence_length, embed_size_per_head))。

包含解碼器預先計算的隱藏狀態（注意力塊中的鍵和值），可用於（參見 past_key_values 輸入）加速順序解碼。
retrieved_doc_embeds (torch.FloatTensor，形狀為 (batch_size, config.n_docs, hidden_size)，可選，當 output_retrieved=True 時返回) — 檢索器檢索到的嵌入文件。與 question_encoder_last_hidden_state 一起用於計算 doc_scores。
retrieved_doc_ids (torch.LongTensor，形狀為 (batch_size, config.n_docs)，可選，當 output_retrieved=True 時返回) — 檢索器檢索到的嵌入文件的索引。
context_input_ids (torch.LongTensor，形狀為 (batch_size * config.n_docs, config.max_combined_length)，可選，當 output_retrieved=True 時返回) — 由檢索器從檢索到的文件和問題編碼器 input_ids 中後處理得到的輸入 ID。
context_attention_mask (torch.LongTensor，形狀為 (batch_size * config.n_docs, config.max_combined_length)，可選，當 output_retrieved=True 時返回) — 由檢索器從檢索到的文件和問題編碼器 input_ids 中後處理得到的注意力掩碼。
question_encoder_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 模型問題編碼器池化輸出的最後一層輸出的隱藏狀態序列。
question_enc_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入輸出，一個用於每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

問題編碼器在每一層輸出和初始嵌入輸出時的隱藏狀態。
question_enc_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

問題編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
generator_enc_last_hidden_state (torch.FloatTensor，形狀為 (batch_size, sequence_length, hidden_size)，可選) — 模型生成器編碼器最後一層輸出的隱藏狀態序列。
generator_enc_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入輸出，一個用於每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

生成器編碼器在每一層輸出和初始嵌入輸出時的隱藏狀態。
generator_enc_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

生成器編碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
generator_dec_hidden_states (tuple(torch.FloatTensor)，可選，當傳遞 output_hidden_states=True 或 config.output_hidden_states=True 時返回) — torch.FloatTensor 的元組（一個用於嵌入輸出，一個用於每一層的輸出），形狀為 (batch_size, sequence_length, hidden_size)。

生成器解碼器在每一層輸出和初始嵌入輸出時的隱藏狀態。
generator_dec_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

生成器解碼器的注意力權重，在注意力 softmax 之後，用於計算自注意力頭中的加權平均。
generator_cross_attentions (tuple(torch.FloatTensor)，可選，當傳遞 output_attentions=True 或 config.output_attentions=True 時返回) — torch.FloatTensor 的元組（每一層一個），形狀為 (batch_size, num_heads, sequence_length, sequence_length)。

生成器解碼器的交叉注意力權重，在注意力 softmax 之後，用於計算交叉注意力頭中的加權平均。

檢索增強邊緣化模型輸出的基類。

Transformers

RAG

概述

使用技巧

RagConfig

class transformers.RagConfig

from_question_encoder_generator_configs

RagTokenizer

class transformers.RagTokenizer

Rag 特定輸出

class transformers.models.rag.modeling_rag.RetrievAugLMMarginOutput

class transformers.models.rag.modeling_rag.RetrievAugLMOutput

RagRetriever

class transformers.RagRetriever

init_retrieval

postprocess_docs

檢索

RagModel

class transformers.RagModel

前向

RagSequenceForGeneration

class transformers.RagSequenceForGeneration

前向

生成

RagTokenForGeneration

class transformers.RagTokenForGeneration

前向

生成

TFRagModel

class transformers.TFRagModel

呼叫

TFRagSequenceForGeneration

class transformers.TFRagSequenceForGeneration

呼叫

生成

TFRagTokenForGeneration

class transformers.TFRagTokenForGeneration

呼叫

生成