Transformers 文件
TAPAS
並獲得增強的文件體驗
開始使用
TAPAS
概述
TAPAS 模型由 Jonathan Herzig、Paweł Krzysztof Nowak、Thomas Müller、Francesco Piccinno 和 Julian Martin Eisenschlos 在TAPAS: 透過預訓練進行弱監督表格解析中提出。它是一個基於 BERT 的模型,專門為回答表格資料相關問題而設計(並進行預訓練)。與 BERT 相比,TAPAS 使用相對位置嵌入,並具有 7 種標記型別來編碼表格結構。TAPAS 在大型資料集上透過掩碼語言建模(MLM)目標進行預訓練,該資料集包含來自英文維基百科的數百萬個表格和相應的文字。
對於問答,TAPAS 在頂部有 2 個頭:一個單元格選擇頭和一個聚合頭,用於(可選)在所選單元格中執行聚合(例如計數或求和)。TAPAS 已在多個數據集上進行了微調:
它在 SQA 和 WTQ 上均取得了最先進的效能,同時在 WikiSQL 上的效能與 SOTA 相當,但架構更簡單。
論文摘要如下:
在表格上回答自然語言問題通常被視為一項語義解析任務。為了減輕完整邏輯形式的收整合本,一種流行的方法側重於弱監督,即使用指代而非邏輯形式。然而,從弱監督中訓練語義解析器存在困難,此外,生成的邏輯形式僅用作檢索指代之前的中間步驟。在本文中,我們提出了 TAPAS,一種無需生成邏輯形式即可在表格上進行問答的方法。TAPAS 從弱監督中訓練,並透過選擇表格單元格並可選地對該選擇應用相應的聚合運算子來預測指代。TAPAS 擴充套件了 BERT 的架構以將表格編碼為輸入,從維基百科爬取的文字片段和表格的有效聯合預訓練進行初始化,並進行端到端訓練。我們對三個不同的語義解析資料集進行了實驗,發現 TAPAS 透過將 SQA 的最先進準確率從 55.1 提高到 67.2,並與 WIKISQL 和 WIKITQ 的最先進水平持平,從而超越或媲美語義解析模型,但模型架構更簡單。我們還發現,在我們的設定中,從 WIKISQL 到 WIKITQ 的遷移學習(這是微不足道的)產生了 48.7 的準確率,比最先進水平高出 4.2 個百分點。
此外,作者透過建立數百萬自動生成的訓練示例的平衡資料集,進一步預訓練了 TAPAS 以識別**表格蘊含**,這些示例在微調之前的中間步驟中學習。TAPAS 的作者將這種進一步的預訓練稱為中間預訓練(因為 TAPAS 首先在 MLM 上進行預訓練,然後在另一個數據集上進行預訓練)。他們發現中間預訓練進一步提高了 SQA 的效能,實現了新的最先進水平,並在 TabFact(一個包含 16k 維基百科表格的用於表格蘊含的大規模資料集,一個二元分類任務)上實現了最先進水平。欲瞭解更多詳情,請參閱他們的後續論文:Julian Martin Eisenschlos、Syrine Krichene 和 Thomas Müller 的 使用中間預訓練理解表格。

此模型由 nielsr 貢獻。此模型的 TensorFlow 版本由 kamalkraj 貢獻。原始程式碼可在 此處 找到。
使用技巧
- TAPAS 預設使用相對位置嵌入(在表格的每個單元格處重新開始位置嵌入)。請注意,這是在 TAPAS 原始論文發表後新增的功能。據作者稱,這通常會帶來稍好的效能,並允許在不耗盡嵌入的情況下編碼更長的序列。這反映在 TapasConfig 的
reset_position_index_per_cell
引數中,該引數預設設定為True
。在 hub 上可用的模型預設版本都使用相對位置嵌入。您仍然可以透過在呼叫from_pretrained()
方法時傳入額外的引數revision="no_reset"
來使用具有絕對位置嵌入的模型。請注意,通常建議在右側而不是左側填充輸入。 - TAPAS 基於 BERT,因此
TAPAS-base
例如對應於BERT-base
架構。當然,TAPAS-large
將帶來最佳效能(論文中報告的結果來自TAPAS-large
)。各種大小模型的效能結果顯示在原始 GitHub 倉庫中。 - TAPAS 具有在 SQA 上微調的檢查點,能夠在會話設定中回答與表格相關的問題。這意味著您可以提出後續問題,例如與前一個問題相關的“他多大了?”。請注意,在會話設定中,TAPAS 的前向傳播略有不同:在這種情況下,您必須將每個表格-問題對逐一輸入到模型中,以便
prev_labels
令牌型別 ID 可以被模型對前一個問題的預測labels
覆蓋。有關更多資訊,請參閱“用法”部分。 - TAPAS 與 BERT 類似,因此依賴於掩碼語言建模(MLM)目標。因此,它在預測掩碼令牌和一般 NLU 方面效率高,但不適合文字生成。採用因果語言建模(CLM)目標訓練的模型在這方面表現更好。請注意,TAPAS 可以用作 EncoderDecoderModel 框架中的編碼器,以將其與 GPT-2 等自迴歸文字解碼器結合使用。
用法:微調
在這裡,我們解釋瞭如何在你自己的資料集上微調 TapasForQuestionAnswering。
步驟 1:選擇使用 TAPAS 的 3 種方式之一 - 或進行實驗
基本上,有 3 種不同的方式可以微調 TapasForQuestionAnswering,對應於 Tapas 被微調的不同資料集。
- SQA:如果你對在會話設定中提問與表格相關的後續問題感興趣。例如,如果你首先問“第一個演員的名字是什麼?”,然後你可以問一個後續問題,例如“他多大了?”。在這裡,問題不涉及任何聚合(所有問題都是單元格選擇問題)。
- WTQ:如果你不感興趣在會話設定中提問,而只是提問與表格相關的問題,這些問題可能涉及聚合,例如計算行數、求和單元格值或平均單元格值。你就可以問“C羅職業生涯中進球總數是多少?”。這種情況也稱為**弱監督**,因為模型本身必須僅根據問題的答案學習適當的聚合運算子(SUM/COUNT/AVERAGE/NONE)。
- WikiSQL-supervised:此資料集基於 WikiSQL,模型在訓練期間被賦予了真實聚合運算子。這也被稱為**強監督**。在這裡,學習適當的聚合運算子要容易得多。
總結一下:
任務 | 示例資料集 | 描述 |
---|---|---|
對話式 | SQA | 對話式,僅限單元格選擇問題 |
聚合的弱監督 | WTQ | 問題可能涉及聚合,模型必須僅根據答案進行學習 |
聚合的強監督 | WikiSQL-supervised | 問題可能涉及聚合,模型必須根據黃金聚合運算子進行學習 |
使用預訓練的基座和從中心隨機初始化的分類頭初始化模型,可以按如下所示進行。
>>> from transformers import TapasConfig, TapasForQuestionAnswering
>>> # for example, the base sized model with default SQA configuration
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base")
>>> # or, the base sized model with WTQ configuration
>>> config = TapasConfig.from_pretrained("google/tapas-base-finetuned-wtq")
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
>>> # or, the base sized model with WikiSQL configuration
>>> config = TapasConfig("google-base-finetuned-wikisql-supervised")
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
當然,你不必一定遵循 TAPAS 微調的三種方式之一。你也可以在初始化 TapasConfig 時,透過定義你想要的任何超引數來嘗試,然後根據該配置建立一個 TapasForQuestionAnswering。例如,如果你的資料集既有對話式問題,又有可能涉及聚合的問題,那麼你可以這樣做。下面是一個例子:
>>> from transformers import TapasConfig, TapasForQuestionAnswering
>>> # you can initialize the classification heads any way you want (see docs of TapasConfig)
>>> config = TapasConfig(num_aggregation_labels=3, average_logits_per_cell=True)
>>> # initializing the pre-trained base sized model with our custom classification heads
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
使用預訓練的基礎模型和從中心隨機初始化的分類頭初始化模型,可以按照以下所示進行。請務必安裝 tensorflow_probability 依賴項。
>>> from transformers import TapasConfig, TFTapasForQuestionAnswering
>>> # for example, the base sized model with default SQA configuration
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base")
>>> # or, the base sized model with WTQ configuration
>>> config = TapasConfig.from_pretrained("google/tapas-base-finetuned-wtq")
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
>>> # or, the base sized model with WikiSQL configuration
>>> config = TapasConfig("google-base-finetuned-wikisql-supervised")
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
當然,你不必一定遵循 TAPAS 微調的三種方式之一。你也可以透過在初始化 TapasConfig 時定義任何你想要的超引數來進行實驗,然後根據該配置建立一個 TFTapasForQuestionAnswering。例如,如果你的資料集既包含對話式問題,也包含可能涉及聚合的問題,那麼你可以這樣做。下面是一個示例:
>>> from transformers import TapasConfig, TFTapasForQuestionAnswering
>>> # you can initialize the classification heads any way you want (see docs of TapasConfig)
>>> config = TapasConfig(num_aggregation_labels=3, average_logits_per_cell=True)
>>> # initializing the pre-trained base sized model with our custom classification heads
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
你也可以從一個已經微調過的檢查點開始。這裡需要注意的是,WTQ 上已經微調過的檢查點由於 L2 損失有些脆弱而存在一些問題。更多資訊請參見此處。
有關 HuggingFace 中心上所有預訓練和微調的 TAPAS 檢查點的列表,請參見此處。
第二步:以 SQA 格式準備資料
其次,無論您上面選擇了什麼,您都應該將資料集準備成 SQA 格式。該格式是一個 TSV/CSV 檔案,包含以下列:
id
: 可選,表格-問題對的 id,用於記錄。annotator
: 可選,標註表格-問題對的人員 id,用於記錄。position
: 整數,指示問題是與表格相關的第幾個問題(第一、第二、第三……)。僅在會話設定(SQA)中需要。如果您選擇 WTQ/WikiSQL-supervised,則不需要此列。question
: 字串table_file
: 字串,包含表格資料的 csv 檔名answer_coordinates
: 一個或多個元組的列表(每個元組都是單元格座標,即屬於答案的行、列對)answer_text
: 一個或多個字串的列表(每個字串都是答案的一部分的單元格值)aggregation_label
: 聚合運算子的索引。僅在聚合強監督(WikiSQL-supervised 案例)中需要float_answer
: 問題的浮點答案,如果有的話(如果沒有則為 np.nan)。僅在聚合弱監督(如 WTQ 和 WikiSQL)中需要
表格本身應存在於一個資料夾中,每個表格都是一個單獨的 CSV 檔案。請注意,TAPAS 演算法的作者使用了一些自動化邏輯的轉換指令碼將其他資料集(WTQ、WikiSQL)轉換為 SQA 格式。作者在此處解釋了這一點。與 HuggingFace 實現相容的此指令碼的轉換版本可在此處找到。有趣的是,這些轉換指令碼並不完美(answer_coordinates
和 float_answer
欄位是根據 answer_text
填充的),這意味著 WTQ 和 WikiSQL 的結果實際上可以改進。
步驟 3:使用 TapasTokenizer 將資料轉換為張量
第三,鑑於您已經以 TSV/CSV 格式(以及包含表格資料的相應 CSV 檔案)準備了資料,您可以使用 TapasTokenizer 將表格-問題對轉換為 input_ids
、attention_mask
、token_type_ids
等。同樣,根據您上面選擇的三種情況中的哪一種,TapasForQuestionAnswering 需要不同的輸入才能進行微調:
任務 | 所需輸入 |
---|---|
對話式 | input_ids , attention_mask , token_type_ids , labels |
聚合的弱監督 | input_ids , attention_mask , token_type_ids , labels , numeric_values , numeric_values_scale , float_answer |
聚合的強監督 | input ids , attention mask , token type ids , labels , aggregation_labels |
TapasTokenizer 根據 TSV 檔案的 answer_coordinates
和 answer_text
列建立 labels
、numeric_values
和 numeric_values_scale
。float_answer
和 aggregation_labels
已經存在於步驟 2 的 TSV 檔案中。這是一個示例:
>>> from transformers import TapasTokenizer
>>> import pandas as pd
>>> model_name = "google/tapas-base"
>>> tokenizer = TapasTokenizer.from_pretrained(model_name)
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> queries = [
... "What is the name of the first actor?",
... "How many movies has George Clooney played in?",
... "What is the total number of movies?",
... ]
>>> answer_coordinates = [[(0, 0)], [(2, 1)], [(0, 1), (1, 1), (2, 1)]]
>>> answer_text = [["Brad Pitt"], ["69"], ["209"]]
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(
... table=table,
... queries=queries,
... answer_coordinates=answer_coordinates,
... answer_text=answer_text,
... padding="max_length",
... return_tensors="pt",
... )
>>> inputs
{'input_ids': tensor([[ ... ]]), 'attention_mask': tensor([[...]]), 'token_type_ids': tensor([[[...]]]),
'numeric_values': tensor([[ ... ]]), 'numeric_values_scale: tensor([[ ... ]]), labels: tensor([[ ... ]])}
請注意,TapasTokenizer 期望表格資料是**純文字**。您可以在資料幀上使用 .astype(str)
將其轉換為純文字資料。當然,這僅展示瞭如何編碼單個訓練示例。建議建立資料載入器以迭代批次。
>>> import torch
>>> import pandas as pd
>>> tsv_path = "your_path_to_the_tsv_file"
>>> table_csv_path = "your_path_to_a_directory_containing_all_csv_files"
>>> class TableDataset(torch.utils.data.Dataset):
... def __init__(self, data, tokenizer):
... self.data = data
... self.tokenizer = tokenizer
... def __getitem__(self, idx):
... item = data.iloc[idx]
... table = pd.read_csv(table_csv_path + item.table_file).astype(
... str
... ) # be sure to make your table data text only
... encoding = self.tokenizer(
... table=table,
... queries=item.question,
... answer_coordinates=item.answer_coordinates,
... answer_text=item.answer_text,
... truncation=True,
... padding="max_length",
... return_tensors="pt",
... )
... # remove the batch dimension which the tokenizer adds by default
... encoding = {key: val.squeeze(0) for key, val in encoding.items()}
... # add the float_answer which is also required (weak supervision for aggregation case)
... encoding["float_answer"] = torch.tensor(item.float_answer)
... return encoding
... def __len__(self):
... return len(self.data)
>>> data = pd.read_csv(tsv_path, sep="\t")
>>> train_dataset = TableDataset(data, tokenizer)
>>> train_dataloader = torch.utils.data.DataLoader(train_dataset, batch_size=32)
第三,鑑於您已經以 TSV/CSV 格式(以及相應的包含表格資料的 CSV 檔案)準備了資料,您可以使用 TapasTokenizer 將表格-問題對轉換為 input_ids
、attention_mask
、token_type_ids
等。同樣,根據您上面選擇的三種情況中的哪一種,TFTapasForQuestionAnswering 需要不同的輸入才能進行微調:
任務 | 所需輸入 |
---|---|
對話式 | input_ids , attention_mask , token_type_ids , labels |
聚合的弱監督 | input_ids , attention_mask , token_type_ids , labels , numeric_values , numeric_values_scale , float_answer |
聚合的強監督 | input ids , attention mask , token type ids , labels , aggregation_labels |
TapasTokenizer 根據 TSV 檔案的 answer_coordinates
和 answer_text
列建立 labels
、numeric_values
和 numeric_values_scale
。float_answer
和 aggregation_labels
已經存在於步驟 2 的 TSV 檔案中。這是一個示例:
>>> from transformers import TapasTokenizer
>>> import pandas as pd
>>> model_name = "google/tapas-base"
>>> tokenizer = TapasTokenizer.from_pretrained(model_name)
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> queries = [
... "What is the name of the first actor?",
... "How many movies has George Clooney played in?",
... "What is the total number of movies?",
... ]
>>> answer_coordinates = [[(0, 0)], [(2, 1)], [(0, 1), (1, 1), (2, 1)]]
>>> answer_text = [["Brad Pitt"], ["69"], ["209"]]
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(
... table=table,
... queries=queries,
... answer_coordinates=answer_coordinates,
... answer_text=answer_text,
... padding="max_length",
... return_tensors="tf",
... )
>>> inputs
{'input_ids': tensor([[ ... ]]), 'attention_mask': tensor([[...]]), 'token_type_ids': tensor([[[...]]]),
'numeric_values': tensor([[ ... ]]), 'numeric_values_scale: tensor([[ ... ]]), labels: tensor([[ ... ]])}
請注意,TapasTokenizer 期望表格資料是**純文字**。您可以在資料幀上使用 .astype(str)
將其轉換為純文字資料。當然,這僅展示瞭如何編碼單個訓練示例。建議建立資料載入器以迭代批次。
>>> import tensorflow as tf
>>> import pandas as pd
>>> tsv_path = "your_path_to_the_tsv_file"
>>> table_csv_path = "your_path_to_a_directory_containing_all_csv_files"
>>> class TableDataset:
... def __init__(self, data, tokenizer):
... self.data = data
... self.tokenizer = tokenizer
... def __iter__(self):
... for idx in range(self.__len__()):
... item = self.data.iloc[idx]
... table = pd.read_csv(table_csv_path + item.table_file).astype(
... str
... ) # be sure to make your table data text only
... encoding = self.tokenizer(
... table=table,
... queries=item.question,
... answer_coordinates=item.answer_coordinates,
... answer_text=item.answer_text,
... truncation=True,
... padding="max_length",
... return_tensors="tf",
... )
... # remove the batch dimension which the tokenizer adds by default
... encoding = {key: tf.squeeze(val, 0) for key, val in encoding.items()}
... # add the float_answer which is also required (weak supervision for aggregation case)
... encoding["float_answer"] = tf.convert_to_tensor(item.float_answer, dtype=tf.float32)
... yield encoding["input_ids"], encoding["attention_mask"], encoding["numeric_values"], encoding[
... "numeric_values_scale"
... ], encoding["token_type_ids"], encoding["labels"], encoding["float_answer"]
... def __len__(self):
... return len(self.data)
>>> data = pd.read_csv(tsv_path, sep="\t")
>>> train_dataset = TableDataset(data, tokenizer)
>>> output_signature = (
... tf.TensorSpec(shape=(512,), dtype=tf.int32),
... tf.TensorSpec(shape=(512,), dtype=tf.int32),
... tf.TensorSpec(shape=(512,), dtype=tf.float32),
... tf.TensorSpec(shape=(512,), dtype=tf.float32),
... tf.TensorSpec(shape=(512, 7), dtype=tf.int32),
... tf.TensorSpec(shape=(512,), dtype=tf.int32),
... tf.TensorSpec(shape=(512,), dtype=tf.float32),
... )
>>> train_dataloader = tf.data.Dataset.from_generator(train_dataset, output_signature=output_signature).batch(32)
請注意,此處我們獨立編碼每個表格-問題對。只要您的資料集**不是對話式**的,這就可以了。如果您的資料集涉及對話式問題(例如 SQA 中),則應首先按表格(按其 position
索引的順序)將 queries
、answer_coordinates
和 answer_text
分組在一起,並批次編碼每個表格及其問題。這將確保 prev_labels
令牌型別(請參閱 TapasTokenizer 的文件)設定正確。有關更多資訊,請參閱 此筆記本。有關使用 TensorFlow 模型的更多資訊,請參閱 此筆記本。
**第四步:訓練(微調)模型
然後,您可以按照以下方式微調 TapasForQuestionAnswering(此處以聚合弱監督為例):
>>> from transformers import TapasConfig, TapasForQuestionAnswering, AdamW
>>> # this is the default WTQ configuration
>>> config = TapasConfig(
... num_aggregation_labels=4,
... use_answer_as_supervision=True,
... answer_loss_cutoff=0.664694,
... cell_selection_preference=0.207951,
... huber_loss_delta=0.121194,
... init_cell_selection_weights_to_zero=True,
... select_one_column=True,
... allow_empty_column_selection=False,
... temperature=0.0352513,
... )
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
>>> optimizer = AdamW(model.parameters(), lr=5e-5)
>>> model.train()
>>> for epoch in range(2): # loop over the dataset multiple times
... for batch in train_dataloader:
... # get the inputs;
... input_ids = batch["input_ids"]
... attention_mask = batch["attention_mask"]
... token_type_ids = batch["token_type_ids"]
... labels = batch["labels"]
... numeric_values = batch["numeric_values"]
... numeric_values_scale = batch["numeric_values_scale"]
... float_answer = batch["float_answer"]
... # zero the parameter gradients
... optimizer.zero_grad()
... # forward + backward + optimize
... outputs = model(
... input_ids=input_ids,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=labels,
... numeric_values=numeric_values,
... numeric_values_scale=numeric_values_scale,
... float_answer=float_answer,
... )
... loss = outputs.loss
... loss.backward()
... optimizer.step()
然後,您可以按照以下方式微調 TFTapasForQuestionAnswering(此處以聚合弱監督為例):
>>> import tensorflow as tf
>>> from transformers import TapasConfig, TFTapasForQuestionAnswering
>>> # this is the default WTQ configuration
>>> config = TapasConfig(
... num_aggregation_labels=4,
... use_answer_as_supervision=True,
... answer_loss_cutoff=0.664694,
... cell_selection_preference=0.207951,
... huber_loss_delta=0.121194,
... init_cell_selection_weights_to_zero=True,
... select_one_column=True,
... allow_empty_column_selection=False,
... temperature=0.0352513,
... )
>>> model = TFTapasForQuestionAnswering.from_pretrained("google/tapas-base", config=config)
>>> optimizer = tf.keras.optimizers.Adam(learning_rate=5e-5)
>>> for epoch in range(2): # loop over the dataset multiple times
... for batch in train_dataloader:
... # get the inputs;
... input_ids = batch[0]
... attention_mask = batch[1]
... token_type_ids = batch[4]
... labels = batch[-1]
... numeric_values = batch[2]
... numeric_values_scale = batch[3]
... float_answer = batch[6]
... # forward + backward + optimize
... with tf.GradientTape() as tape:
... outputs = model(
... input_ids=input_ids,
... attention_mask=attention_mask,
... token_type_ids=token_type_ids,
... labels=labels,
... numeric_values=numeric_values,
... numeric_values_scale=numeric_values_scale,
... float_answer=float_answer,
... )
... grads = tape.gradient(outputs.loss, model.trainable_weights)
... optimizer.apply_gradients(zip(grads, model.trainable_weights))
用法:推理
在這裡,我們解釋如何使用 TapasForQuestionAnswering 或 TFTapasForQuestionAnswering 進行推理(即對新資料進行預測)。對於推理,只需向模型提供 input_ids
、attention_mask
和 token_type_ids
(您可以使用 TapasTokenizer 獲取這些資訊)即可獲得 logits。接下來,您可以使用方便的 ~models.tapas.tokenization_tapas.convert_logits_to_predictions
方法將這些 logits 轉換為預測座標和可選的聚合索引。
然而,請注意,推理**不同**,這取決於設定是否是對話式的。在非對話式設定中,推理可以並行處理批處理中的所有表格-問題對。這是一個示例:
>>> from transformers import TapasTokenizer, TapasForQuestionAnswering
>>> import pandas as pd
>>> model_name = "google/tapas-base-finetuned-wtq"
>>> model = TapasForQuestionAnswering.from_pretrained(model_name)
>>> tokenizer = TapasTokenizer.from_pretrained(model_name)
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> queries = [
... "What is the name of the first actor?",
... "How many movies has George Clooney played in?",
... "What is the total number of movies?",
... ]
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="pt")
>>> outputs = model(**inputs)
>>> predicted_answer_coordinates, predicted_aggregation_indices = tokenizer.convert_logits_to_predictions(
... inputs, outputs.logits.detach(), outputs.logits_aggregation.detach()
... )
>>> # let's print out the results:
>>> id2aggregation = {0: "NONE", 1: "SUM", 2: "AVERAGE", 3: "COUNT"}
>>> aggregation_predictions_string = [id2aggregation[x] for x in predicted_aggregation_indices]
>>> answers = []
>>> for coordinates in predicted_answer_coordinates:
... if len(coordinates) == 1:
... # only a single cell:
... answers.append(table.iat[coordinates[0]])
... else:
... # multiple cells
... cell_values = []
... for coordinate in coordinates:
... cell_values.append(table.iat[coordinate])
... answers.append(", ".join(cell_values))
>>> display(table)
>>> print("")
>>> for query, answer, predicted_agg in zip(queries, answers, aggregation_predictions_string):
... print(query)
... if predicted_agg == "NONE":
... print("Predicted answer: " + answer)
... else:
... print("Predicted answer: " + predicted_agg + " > " + answer)
What is the name of the first actor?
Predicted answer: Brad Pitt
How many movies has George Clooney played in?
Predicted answer: COUNT > 69
What is the total number of movies?
Predicted answer: SUM > 87, 53, 69
在這裡,我們解釋瞭如何使用 TFTapasForQuestionAnswering 進行推理(即對新資料進行預測)。對於推理,只需向模型提供 input_ids
、attention_mask
和 token_type_ids
(您可以使用 TapasTokenizer 獲取這些資訊)即可獲得 logits。接下來,您可以使用方便的 ~models.tapas.tokenization_tapas.convert_logits_to_predictions
方法將這些 logits 轉換為預測座標和可選的聚合索引。
然而,請注意,推理**不同**,這取決於設定是否是對話式的。在非對話式設定中,推理可以並行處理批處理中的所有表格-問題對。這是一個示例:
>>> from transformers import TapasTokenizer, TFTapasForQuestionAnswering
>>> import pandas as pd
>>> model_name = "google/tapas-base-finetuned-wtq"
>>> model = TFTapasForQuestionAnswering.from_pretrained(model_name)
>>> tokenizer = TapasTokenizer.from_pretrained(model_name)
>>> data = {"Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"], "Number of movies": ["87", "53", "69"]}
>>> queries = [
... "What is the name of the first actor?",
... "How many movies has George Clooney played in?",
... "What is the total number of movies?",
... ]
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="tf")
>>> outputs = model(**inputs)
>>> predicted_answer_coordinates, predicted_aggregation_indices = tokenizer.convert_logits_to_predictions(
... inputs, outputs.logits, outputs.logits_aggregation
... )
>>> # let's print out the results:
>>> id2aggregation = {0: "NONE", 1: "SUM", 2: "AVERAGE", 3: "COUNT"}
>>> aggregation_predictions_string = [id2aggregation[x] for x in predicted_aggregation_indices]
>>> answers = []
>>> for coordinates in predicted_answer_coordinates:
... if len(coordinates) == 1:
... # only a single cell:
... answers.append(table.iat[coordinates[0]])
... else:
... # multiple cells
... cell_values = []
... for coordinate in coordinates:
... cell_values.append(table.iat[coordinate])
... answers.append(", ".join(cell_values))
>>> display(table)
>>> print("")
>>> for query, answer, predicted_agg in zip(queries, answers, aggregation_predictions_string):
... print(query)
... if predicted_agg == "NONE":
... print("Predicted answer: " + answer)
... else:
... print("Predicted answer: " + predicted_agg + " > " + answer)
What is the name of the first actor?
Predicted answer: Brad Pitt
How many movies has George Clooney played in?
Predicted answer: COUNT > 69
What is the total number of movies?
Predicted answer: SUM > 87, 53, 69
如果是對話式設定,那麼每個表格-問題對必須**按順序**提供給模型,以便 prev_labels
令牌型別可以被前一個表格-問題對的預測 labels
覆蓋。同樣,更多資訊可以在 此筆記本(適用於 PyTorch)和 此筆記本(適用於 TensorFlow)中找到。
資源
TAPAS 特定輸出
class transformers.models.tapas.modeling_tapas.TableQuestionAnsweringOutput
< 來源 >( 損失: typing.Optional[torch.FloatTensor] = None 對數: typing.Optional[torch.FloatTensor] = None 對數聚合: typing.Optional[torch.FloatTensor] = None 隱藏狀態: typing.Optional[tuple[torch.FloatTensor]] = None 注意力: typing.Optional[tuple[torch.FloatTensor]] = None )
引數
- 損失 (
torch.FloatTensor
,形狀為(1,)
,可選,當提供labels
(可能還有answer
,aggregation_labels
,numeric_values
和numeric_values_scale
) 時返回) — 總損失,作為分層單元格選擇對數似然損失和(可選)半監督迴歸損失以及(可選)聚合監督損失的總和。 - 對數 (
torch.FloatTensor
,形狀為(batch_size, sequence_length)
) — 每個 token 的單元格選擇頭的預測分數。 - 聚合對數 (
torch.FloatTensor
, 可選, 形狀為(batch_size, num_aggregation_labels)
) — 聚合頭對每個聚合運算子的預測分數。 - 隱藏狀態 (
tuple[torch.FloatTensor]
,可選,當傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) —torch.FloatTensor
的元組(一個用於嵌入層的輸出,如果模型有嵌入層,+ 一個用於每層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每層輸出處的隱藏狀態以及可選的初始嵌入輸出。
- 注意力 (
tuple[torch.FloatTensor]
,可選,當傳遞output_attentions=True
或config.output_attentions=True
時返回) —torch.FloatTensor
的元組(每層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。在注意力 softmax 之後,用於計算自注意力頭中的加權平均值的注意力權重。
TapasForQuestionAnswering 的輸出型別。
TapasConfig
class transformers.TapasConfig
< 來源 >( 詞彙量 = 30522 隱藏大小 = 768 隱藏層數量 = 12 注意力頭數量 = 12 中間大小 = 3072 隱藏啟用 = 'gelu' 隱藏dropout機率 = 0.1 注意力probs dropout機率 = 0.1 最大位置嵌入 = 1024 型別詞彙量大小 = [3, 256, 256, 2, 256, 256, 10] 初始化範圍 = 0.02 層歸一化eps = 1e-12 填充token id = 0 正標籤權重 = 10.0 聚合標籤數量 = 0 聚合損失權重 = 1.0 使用答案作為監督 = None 答案損失重要性 = 1.0 使用歸一化答案損失 = False huber損失delta = None 溫度 = 1.0 聚合溫度 = 1.0 單元格使用gumbel = False 聚合使用gumbel = False 平均近似函式 = 'ratio' 單元格選擇偏好 = None 答案損失截止 = None 最大行數 = 64 最大列數 = 32 每個單元格平均對數 = False 選擇一列 = True 允許空列選擇 = False 初始化單元格選擇權重為零 = False 每單元格重置位置索引 = True 停用每token損失 = False 聚合標籤 = None 無聚合標籤索引 = None **kwargs )
引數
- 詞彙表大小 (
int
,可選,預設為 30522) — TAPAS 模型的詞彙表大小。定義了呼叫 TapasModel 時傳入的inputs_ids
可以表示的不同 token 的數量。 - 隱藏層大小 (
int
,可選,預設為 768) — 編碼器層和池化層的大小。 - 隱藏層數量 (
int
,可選,預設為 12) — Transformer 編碼器中的隱藏層數量。 - 注意力頭數量 (
int
,可選,預設為 12) — Transformer 編碼器中每個注意力層的注意力頭數量。 - 中間大小 (
int
,可選,預設為 3072) — Transformer 編碼器中“中間”(通常稱為前饋)層的大小。 - hidden_act (
str
或Callable
, 可選, 預設為"gelu"
) — 編碼器和池化器中的非線性啟用函式(函式或字串)。如果為字串,支援"gelu"
、"relu"
、"swish"
和"gelu_new"
。 - hidden_dropout_prob (
float
, 可選, 預設為 0.1) — 嵌入、編碼器和池化器中所有全連線層的 dropout 機率。 - attention_probs_dropout_prob (
float
, 可選, 預設為 0.1) — 注意力機率的 dropout 比率。 - max_position_embeddings (
int
, 可選, 預設為 1024) — 此模型可能使用的最大序列長度。通常設定為較大值以防萬一(例如 512 或 1024 或 2048)。 - type_vocab_sizes (
list[int]
, 可選, 預設為[3, 256, 256, 2, 256, 256, 10]
) — 呼叫 TapasModel 時傳入的token_type_ids
的詞彙表大小。 - initializer_range (
float
, 可選, 預設為 0.02) — 用於初始化所有權重矩陣的 truncated_normal_initializer 的標準差。 - layer_norm_eps (
float
, 可選, 預設為 1e-12) — 層歸一化層使用的 epsilon 值。 - positive_label_weight (
float
, 可選, 預設為 10.0) — 正面標籤的權重。 - num_aggregation_labels (
int
, 可選, 預設為 0) — 要預測的聚合運算子的數量。 - aggregation_loss_weight (
float
, 可選, 預設為 1.0) — 聚合損失的重要性權重。 - use_answer_as_supervision (
bool
, 可選) — 是否將答案作為聚合示例的唯一監督。 - answer_loss_importance (
float
, 可選, 預設為 1.0) — 迴歸損失的重要性權重。 - use_normalized_answer_loss (
bool
, 可選, 預設為False
) — 是否透過預測值和期望值的最大值來歸一化答案損失。 - huber_loss_delta (
float
, 可選) — 用於計算迴歸損失的 Delta 引數。 - temperature (
float
, 可選, 預設為 1.0) — 用於控制(或改變)單元格邏輯機率偏斜的值。 - aggregation_temperature (
float
, 可選, 預設為 1.0) — 縮放聚合邏輯以控制機率的偏斜。 - use_gumbel_for_cells (
bool
, 可選, 預設為False
) — 是否將 Gumbel-Softmax 應用於單元格選擇。 - use_gumbel_for_aggregation (
bool
, 可選, 預設為False
) — 是否將 Gumbel-Softmax 應用於聚合選擇。 - average_approximation_function (
string
, 可選, 預設為"ratio"
) — 在弱監督情況下計算單元格預期平均值的方法。可以是"ratio"
、"first_order"
或"second_order"
之一。 - cell_selection_preference (
float
, 可選) — 模糊情況下的單元格選擇偏好。僅適用於聚合弱監督(WTQ、WikiSQL)。如果聚合機率(不包括“NONE”運算子)的總質量高於此超引數,則會為示例預測聚合。 - answer_loss_cutoff (
float
, 可選) — 忽略答案損失大於截止值的示例。 - max_num_rows (
int
, 可選, 預設為 64) — 最大行數。 - max_num_columns (
int
, 可選, 預設為 32) — 最大列數。 - average_logits_per_cell (
bool
, 可選, 預設為False
) — 是否對每個單元格的邏輯值取平均。 - select_one_column (
bool
, 可選, 預設為True
) — 是否限制模型只從單列中選擇單元格。 - allow_empty_column_selection (
bool
, 可選, 預設為False
) — 是否允許不選擇任何列。 - init_cell_selection_weights_to_zero (
bool
, 可選, 預設為False
) — 是否將單元格選擇權重初始化為 0,以便初始機率為 50%。 - reset_position_index_per_cell (
bool
, 可選, 預設為True
) — 是否在每個單元格重新開始位置索引(即使用相對位置嵌入)。 - disable_per_token_loss (
bool
, 可選, 預設為False
) — 是否停用單元格上的任何(強或弱)監督。 - aggregation_labels (
dict[int, label]
, 可選) — 用於聚合結果的聚合標籤。例如,WTQ 模型具有以下聚合標籤:{0: "NONE", 1: "SUM", 2: "AVERAGE", 3: "COUNT"}
- no_aggregation_label_index (
int
, 可選) — 如果聚合標籤已定義且其中一個標籤表示“無聚合”,則應將其設定為其索引。例如,WTQ 模型將“NONE”聚合標籤設定為索引 0,因此對於這些模型,該值應設定為 0。
這是用於儲存 TapasModel 配置的配置類。它用於根據指定引數例項化 TAPAS 模型,定義模型架構。使用預設值例項化配置將產生與 TAPAS google/tapas-base-finetuned-sqa 架構類似的配置。
配置物件繼承自 PreTrainedConfig
,可用於控制模型輸出。有關這些方法的更多資訊,請參閱 PretrainedConfig 的文件。
BERT 之外的超引數取自原始實現的 run_task_main.py 和 hparam_utils.py。原始實現可在 https://github.com/google-research/tapas/tree/master 找到。
示例
>>> from transformers import TapasModel, TapasConfig
>>> # Initializing a default (SQA) Tapas configuration
>>> configuration = TapasConfig()
>>> # Initializing a model from the configuration
>>> model = TapasModel(configuration)
>>> # Accessing the model configuration
>>> configuration = model.config
TapasTokenizer
class transformers.TapasTokenizer
< source >( vocab_file do_lower_case = True do_basic_tokenize = True never_split = None unk_token = '[UNK]' sep_token = '[SEP]' pad_token = '[PAD]' cls_token = '[CLS]' mask_token = '[MASK]' empty_token = '[EMPTY]' tokenize_chinese_chars = True strip_accents = None cell_trim_length: int = -1 max_column_id: typing.Optional[int] = None max_row_id: typing.Optional[int] = None strip_column_names: bool = False update_answer_coordinates: bool = False min_question_length = None max_question_length = None model_max_length: int = 512 additional_special_tokens: typing.Optional[list[str]] = None clean_up_tokenization_spaces = True **kwargs )
引數
- vocab_file (
str
) — 包含詞彙表的檔案。 - do_lower_case (
bool
, 可選, 預設為True
) — 分詞時是否將輸入轉換為小寫。 - do_basic_tokenize (
bool
, 可選, 預設為True
) — WordPiece 之前是否執行基本分詞。 - never_split (
Iterable
, 可選) — 分詞期間永不拆分的標記集合。僅在do_basic_tokenize=True
時有效。 - unk_token (
str
, 可選, 預設為"[UNK]"
) — 未知標記。不在詞彙表中的標記不能轉換為 ID,而是設定為此標記。 - sep_token (
str
, 可選, 預設為"[SEP]"
) — 分隔符標記,用於從多個序列構建序列時,例如用於序列分類的兩個序列或用於問答的文字和問題。它也用作使用特殊標記構建的序列的最後一個標記。 - pad_token (
str
, 可選, 預設為"[PAD]"
) — 用於填充的標記,例如在批處理不同長度的序列時。 - cls_token (
str
, 可選, 預設為"[CLS]"
) — 分類器標記,用於序列分類(整個序列的分類而非逐標記分類)。它是使用特殊標記構建的序列的第一個標記。 - mask_token (
str
, 可選, 預設為"[MASK]"
) — 用於遮蓋值的標記。這是使用遮蓋語言建模訓練此模型時使用的標記。這是模型將嘗試預測的標記。 - empty_token (
str
, 可選, 預設為"[EMPTY]"
) — 用於表格中空單元格值的標記。空單元格值包括 ""、"n/a"、"nan" 和 "?"。 - tokenize_chinese_chars (
bool
, 可選, 預設為True
) — 是否對中文字元進行分詞。對於日語,應停用此選項(參見此 問題)。 - strip_accents (
bool
, 可選) — 是否去除所有重音符號。如果未指定此選項,則將由lowercase
的值決定(與原始 BERT 相同)。 - cell_trim_length (
int
, 可選, 預設為 -1) — 如果 > 0:修剪單元格,使其長度 <= 此值。同時停用進一步的單元格修剪,因此應與truncation
設定為True
一起使用。 - max_column_id (
int
, 可選) — 要提取的最大列 ID。 - max_row_id (
int
, 可選) — 要提取的最大行 ID。 - strip_column_names (
bool
, 可選, 預設為False
) — 是否新增空字串而不是列名。 - update_answer_coordinates (
bool
, 可選, 預設為False
) — 是否根據答案文字重新計算答案座標。 - min_question_length (
int
, 可選) — 每個問題以標記表示的最小長度(否則將跳過)。 - max_question_length (
int
, 可選) — 每個問題以標記表示的最大長度(否則將跳過)。 - clean_up_tokenization_spaces (
bool
, 可選, 預設為True
) — 解碼後是否清理空格,清理包括移除潛在的額外空格等。
構建一個 TAPAS 分詞器。基於 WordPiece。將表格和一個或多個相關句子扁平化,供 TAPAS 模型使用。
此分詞器繼承自 PreTrainedTokenizer,其中包含大部分主要方法。使用者應參考此超類以獲取有關這些方法的更多資訊。TapasTokenizer 建立多個標記型別 ID 來編碼表格結構。更準確地說,它添加了 7 個標記型別 ID,順序如下:segment_ids
、column_ids
、row_ids
、prev_labels
、column_ranks
、inv_column_ranks
和 numeric_relations
。
- segment_ids:表示標記是屬於問題 (0) 還是表格 (1)。特殊標記和填充為 0。
- column_ids:表示標記屬於表格的哪一列(從 1 開始)。所有問題標記、特殊標記和填充為 0。
- row_ids:表示標記屬於表格的哪一行(從 1 開始)。所有問題標記、特殊標記和填充為 0。列標題的標記也為 0。
- prev_labels:表示標記是否是前一個問題答案的一部分 (1) 或不是 (0)。在對話設定中(如 SQA)很有用。
- column_ranks:如果適用,表示表格標記相對於列的排名。例如,如果列“電影數量”的值為 87、53 和 69,則這些標記的列排名分別為 3、1 和 2。所有問題標記、特殊標記和填充為 0。
- inv_column_ranks:如果適用,表示表格標記相對於列的逆排名。例如,如果列“電影數量”的值為 87、53 和 69,則這些標記的逆列排名分別為 1、3 和 2。所有問題標記、特殊標記和填充為 0。
- numeric_relations:表示問題與表格標記之間的數字關係。所有問題標記、特殊標記和填充為 0。
TapasTokenizer 對錶格和相關句子進行端到端分詞:標點符號分割和 WordPiece。
__call__
< source >( table: pd.DataFrame queries: typing.Union[str, list[str], list[int], list[list[str]], list[list[int]], NoneType] = None answer_coordinates: typing.Union[list[tuple], list[list[tuple]], NoneType] = None answer_text: typing.Union[list[str], list[list[str]], NoneType] = None add_special_tokens: bool = True padding: typing.Union[bool, str, transformers.utils.generic.PaddingStrategy] = False truncation: typing.Union[bool, str, transformers.models.tapas.tokenization_tapas.TapasTruncationStrategy] = False max_length: typing.Optional[int] = None pad_to_multiple_of: typing.Optional[int] = None padding_side: typing.Optional[str] = None return_tensors: typing.Union[str, transformers.utils.generic.TensorType, NoneType] = None return_token_type_ids: typing.Optional[bool] = None return_attention_mask: typing.Optional[bool] = None return_overflowing_tokens: bool = False return_special_tokens_mask: bool = False return_offsets_mapping: bool = False return_length: bool = False verbose: bool = True **kwargs )
引數
- table (
pd.DataFrame
) — 包含表格資料的表格。請注意,所有單元格值都必須是文字。在 Pandas 資料幀上使用 .astype(str) 將其轉換為字串。 - queries (
str
或list[str]
) — 與要編碼的表相關的問題或問題批次。請注意,如果是批次,所有問題必須指向**相同**的表。 - answer_coordinates (
list[Tuple]
或list[list[Tuple]]
, 可選) — 批次中每個表-問題對的答案座標。如果只提供一個表-問題對,則 answer_coordinates 必須是一個包含一個或多個元組的列表。每個元組必須是一個 (行索引,列索引) 對。第一個資料行(不是列標題行)的索引為 0。第一列的索引為 0。如果提供了一批表-問題對,則 answer_coordinates 必須是一個元組列表的列表(每個列表對應一個表-問題對)。 - answer_text (
list[str]
或list[list[str]]
, 可選) — 批次中每個表-問題對的答案文字。如果只提供一個表-問題對,則 answer_text 必須是一個包含一個或多個字串的列表。每個字串必須是相應答案座標的答案文字。如果提供了一批表-問題對,則 answer_coordinates 必須是一個字串列表的列表(每個列表對應一個表-問題對)。 - add_special_tokens (
bool
, 可選, 預設為True
) — 是否使用模型相關的特殊標記編碼序列。 - padding (
bool
,str
或 PaddingStrategy, 可選, 預設為False
) — 啟用並控制填充。接受以下值:True
或'longest'
: 填充到批次中最長的序列(如果只提供一個序列,則不填充)。'max_length'
: 填充到由引數max_length
指定的最大長度,如果未提供該引數,則填充到模型的最大可接受輸入長度。False
或'do_not_pad'
(預設): 不填充(即,可以輸出長度不同的序列批次)。
- truncation (
bool
,str
或TapasTruncationStrategy
, 可選, 預設為False
) — 啟用並控制截斷。接受以下值:True
或'drop_rows_to_fit'
: 截斷到由引數max_length
指定的最大長度,如果未提供該引數,則截斷到模型的最大可接受輸入長度。這將逐行截斷,從表中刪除行。False
或'do_not_truncate'
(預設): 不截斷(即,可以輸出序列長度大於模型最大允許輸入大小的批次)。
- max_length (
int
, 可選) — 控制截斷/填充引數使用的最大長度。如果未設定或設定為
None
,在需要最大長度時,這將使用預定義的模型最大長度。如果模型沒有特定的最大輸入長度(如 XLNet),則最大長度的截斷/填充將被停用。 - is_split_into_words (
bool
, 可選, 預設為False
) — 輸入是否已經預分詞(例如,按單詞拆分)。如果設定為True
,分詞器將假定輸入已按單詞拆分(例如,透過按空格拆分),然後對其進行分詞。這對於 NER 或標記分類很有用。 - pad_to_multiple_of (
int
, 可選) — 如果設定,將序列填充到所提供值的倍數。這對於在計算能力>= 7.5
(Volta) 的 NVIDIA 硬體上啟用 Tensor Cores 特別有用。 - return_tensors (
str
或 TensorType, 可選) — 如果設定,將返回張量而不是 Python 整數列表。可接受的值為:'tf'
: 返回 TensorFlowtf.constant
物件。'pt'
: 返回 PyTorchtorch.Tensor
物件。'np'
: 返回 Numpynp.ndarray
物件。
用於對一個或多個與表格相關的序列進行分詞併為模型準備的主要方法。
convert_logits_to_predictions
< source >( data logits logits_agg = None cell_classification_threshold = 0.5 ) → tuple
包含根據輸入而定的各種元素
引數
- data (
dict
) — 將特徵對映到實際值的字典。應使用 TapasTokenizer 建立。 - logits (形狀為
(batch_size, sequence_length)
的torch.Tensor
或tf.Tensor
) — 包含標記級別邏輯的張量。 - logits_agg (形狀為
(batch_size, num_aggregation_labels)
的torch.Tensor
或tf.Tensor
, 可選) — 包含聚合邏輯的張量。 - cell_classification_threshold (
float
, 可選, 預設為 0.5) — 用於單元格選擇的閾值。所有機率大於此閾值的表格單元格都將被選中。
返回
tuple
包含根據輸入而定的各種元素
- predicted_answer_coordinates (長度為
batch_size
的list[list[[tuple]]
): 預測的答案座標,表示為元組列表的列表。列表中的每個元素包含批次中單個示例的預測答案座標,表示為元組列表。每個元組都是一個單元格,即(行索引,列索引)。 - predicted_aggregation_indices (長度為
batch_size
的list[int]
, 可選, 當提供logits_aggregation
時返回): 聚合頭部的預測聚合運算子索引。
將 TapasForQuestionAnswering 的邏輯轉換為實際的預測答案座標和可選的聚合索引。
此函式基於的原始實現可在 此處 找到。
TapasModel
class transformers.TapasModel
< source >( config add_pooling_layer = True )
引數
- config (TapasModel) — 包含模型所有引數的模型配置類。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請查閱 from_pretrained() 方法載入模型權重。
- add_pooling_layer (
bool
, 可選, 預設為True
) — 是否新增池化層
輸出原始隱藏狀態且沒有特定頂部的裸 Tapas 模型。
此模型繼承自 PreTrainedModel。查閱超類文件以瞭解庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組,並查閱 PyTorch 文件以瞭解所有與一般使用和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
引數
- input_ids (形狀為
(batch_size, sequence_length)
的torch.LongTensor
, 可選) — 詞彙表中輸入序列標記的索引。預設情況下將忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形狀為
(batch_size, sequence_length)
的torch.FloatTensor
, 可選) — 避免對填充標記索引執行注意力的掩碼。掩碼值選擇在[0, 1]
之間:- 1 表示**未被掩蓋**的標記,
- 0 表示**被掩蓋**的標記。
- token_type_ids (形狀為
(batch_size, sequence_length, 7)
的torch.LongTensor
, 可選) — 編碼表格結構的標記索引。可以使用 AutoTokenizer 獲取索引。有關更多資訊,請參閱此類別。 - position_ids (形狀為
(batch_size, sequence_length)
的torch.LongTensor
, 可選) — 位置嵌入中每個輸入序列標記位置的索引。如果 TapasConfig 的reset_position_index_per_cell
設定為True
,將使用相對位置嵌入。選擇範圍為[0, config.max_position_embeddings - 1]
。 - head_mask (形狀為
(num_heads,)
或(num_layers, num_heads)
的torch.FloatTensor
, 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值選擇在[0, 1]
之間:- 1 表示頭部**未被掩蓋**,
- 0 表示頭部**被掩蓋**。
- inputs_embeds (形狀為
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可選) — 可選地,除了傳遞input_ids
,您也可以選擇直接傳遞嵌入表示。如果您希望對input_ids
索引如何轉換為相關向量有比模型內部嵌入查詢矩陣更多的控制,這會很有用。 - encoder_hidden_states (形狀為
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可選) — 編碼器最後一層輸出的隱藏狀態序列。如果模型配置為解碼器,則用於交叉注意力。 - encoder_attention_mask (形狀為
(batch_size, sequence_length)
的torch.FloatTensor
, 可選) — 掩碼,用於避免在編碼器輸入的填充標記索引上執行注意力。如果模型配置為解碼器,則此掩碼用於交叉注意力。掩碼值選擇在[0, 1]
之間:- 1 表示**未被掩蓋**的標記,
- 0 表示**被掩蓋**的標記。
- output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通元組。
返回
transformers.modeling_outputs.BaseModelOutputWithPooling 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.BaseModelOutputWithPooling 或一個 torch.FloatTensor
元組(如果傳遞 return_dict=False
或當 config.return_dict=False
時),包含根據配置(TapasConfig)和輸入而定的各種元素。
-
last_hidden_state (
torch.FloatTensor
, 形狀為(batch_size, sequence_length, hidden_size)
) — 模型最後一層輸出的隱藏狀態序列。 -
pooler_output (形狀為
(batch_size, hidden_size)
的torch.FloatTensor
) — 序列中第一個標記(分類標記)的最後一層隱藏狀態,經過用於輔助預訓練任務的層進一步處理。例如,對於 BERT 家族的模型,這返回經過線性層和 tanh 啟用函式處理後的分類標記。線性層權重是在預訓練期間透過下一個句子預測(分類)目標進行訓練的。 -
hidden_states (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) — 形狀為(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元組(如果模型有嵌入層,則包括嵌入層的輸出,加上每個層的輸出)。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或config.output_attentions=True
時返回) — 形狀為(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元組(每個層一個)。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
此 TapasModel 的 forward 方法,重寫了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, TapasModel
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base")
>>> model = TapasModel.from_pretrained("google/tapas-base")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = ["How many movies has George Clooney played in?", "How old is Brad Pitt?"]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="pt")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
TapasForMaskedLM
class transformers.TapasForMaskedLM
< source >( config )
引數
- config (TapasForMaskedLM) — 包含模型所有引數的模型配置類。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請查閱 from_pretrained() 方法載入模型權重。
帶有 language modeling
頭部的 Tapas 模型。
此模型繼承自 PreTrainedModel。查閱超類文件以瞭解庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組,並查閱 PyTorch 文件以瞭解所有與一般使用和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None encoder_hidden_states: typing.Optional[torch.FloatTensor] = None encoder_attention_mask: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None **kwargs ) → transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (形狀為
(batch_size, sequence_length)
的torch.LongTensor
, 可選) — 詞彙表中輸入序列標記的索引。預設情況下將忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (形狀為
(batch_size, sequence_length)
的torch.FloatTensor
, 可選) — 避免對填充標記索引執行注意力的掩碼。掩碼值選擇在[0, 1]
之間:- 1 表示**未被掩蓋**的標記,
- 0 表示**被掩蓋**的標記。
- token_type_ids (形狀為
(batch_size, sequence_length, 7)
的torch.LongTensor
, 可選) — 編碼表格結構的標記索引。可以使用 AutoTokenizer 獲取索引。有關更多資訊,請參閱此類別。 - position_ids (形狀為
(batch_size, sequence_length)
的torch.LongTensor
, 可選) — 位置嵌入中每個輸入序列標記位置的索引。如果 TapasConfig 的reset_position_index_per_cell
設定為True
,將使用相對位置嵌入。選擇範圍為[0, config.max_position_embeddings - 1]
。 - head_mask (形狀為
(num_heads,)
或(num_layers, num_heads)
的torch.FloatTensor
, 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值選擇在[0, 1]
之間:- 1 表示頭部**未被掩蓋**,
- 0 表示頭部**被掩蓋**。
- inputs_embeds (形狀為
(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
, 可選) — 可選地,除了傳遞input_ids
,您也可以選擇直接傳遞嵌入表示。如果您希望對input_ids
索引如何轉換為相關向量有比模型內部嵌入查詢矩陣更多的控制,這會很有用。 - encoder_hidden_states (
torch.FloatTensor
形狀為(batch_size, sequence_length, hidden_size)
, 可選) — 編碼器最後一層輸出的隱藏狀態序列。如果模型被配置為解碼器,則用於交叉注意力。 - encoder_attention_mask (
torch.FloatTensor
形狀為(batch_size, sequence_length)
, 可選) — 避免對編碼器輸入的填充標記索引執行注意力的掩碼。如果模型被配置為解碼器,則此掩碼用於交叉注意力。掩碼值選擇在[0, 1]
中:- 1 表示**未被掩碼**的標記,
- 0 表示**被掩碼**的標記。
- labels (
torch.LongTensor
形狀為(batch_size, sequence_length)
, 可選) — 用於計算掩碼語言建模損失的標籤。索引應在[-100, 0, ..., config.vocab_size]
範圍內(參見input_ids
文件字串)。索引設定為-100
的標記將被忽略(掩碼),損失僅針對標籤在[0, ..., config.vocab_size]
範圍內的標記計算。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通的元組。
返回
transformers.modeling_outputs.MaskedLMOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.MaskedLMOutput 或一個 torch.FloatTensor
元組(如果傳遞了 return_dict=False
或 config.return_dict=False
),包含根據配置 (TapasConfig) 和輸入而定的各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 掩碼語言建模 (MLM) 損失。 -
logits (形狀為
(batch_size, sequence_length, config.vocab_size)
的torch.FloatTensor
) — 語言建模頭部的預測分數(SoftMax 之前的每個詞彙標記的分數)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) — 形狀為(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元組(如果模型有嵌入層,則包括嵌入層的輸出,加上每個層的輸出)。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或config.output_attentions=True
時返回) — 形狀為(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元組(每個層一個)。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
TapasForMaskedLM 的前向方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, TapasForMaskedLM
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base")
>>> model = TapasForMaskedLM.from_pretrained("google/tapas-base")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(
... table=table, queries="How many [MASK] has George [MASK] played in?", return_tensors="pt"
... )
>>> labels = tokenizer(
... table=table, queries="How many movies has George Clooney played in?", return_tensors="pt"
... )["input_ids"]
>>> outputs = model(**inputs, labels=labels)
>>> logits = outputs.logits
TapasForSequenceClassification
class transformers.TapasForSequenceClassification
< source >( config )
引數
- config (TapasForSequenceClassification) — 模型配置類,包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法以載入模型權重。
帶有序列分類頭的 Tapas 模型(池化輸出頂部的線性層),例如用於表格蘊涵任務,如 TabFact (Chen et al., 2020)。
此模型繼承自 PreTrainedModel。查閱超類文件以瞭解庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組,並查閱 PyTorch 文件以瞭解所有與一般使用和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None labels: typing.Optional[torch.LongTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
形狀為(batch_size, sequence_length)
, 可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
形狀為(batch_size, sequence_length)
, 可選) — 避免對填充標記索引執行注意力的掩碼。掩碼值選擇在[0, 1]
中:- 1 表示**未被掩碼**的標記,
- 0 表示**被掩碼**的標記。
- token_type_ids (
torch.LongTensor
形狀為(batch_size, sequence_length, 7)
, 可選) — 編碼表格結構的標記索引。可以使用 AutoTokenizer 獲取索引。有關更多資訊,請參閱此類別。 - position_ids (
torch.LongTensor
形狀為(batch_size, sequence_length)
, 可選) — 每個輸入序列標記在位置嵌入中的位置索引。如果 TapasConfig 的reset_position_index_per_cell
設定為True
,將使用相對位置嵌入。選擇範圍為[0, config.max_position_embeddings - 1]
。 - head_mask (
torch.FloatTensor
形狀為(num_heads,)
或(num_layers, num_heads)
, 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值選擇在[0, 1]
中:- 1 表示頭部**未被掩碼**,
- 0 表示頭部**被掩碼**。
- inputs_embeds (
torch.FloatTensor
形狀為(batch_size, sequence_length, hidden_size)
, 可選) — 可選地,您可以選擇直接傳遞嵌入表示,而不是傳遞input_ids
。如果您希望對input_ids
索引如何轉換為關聯向量擁有比模型內部嵌入查詢矩陣更多的控制權,這將非常有用。 - labels (
torch.LongTensor
形狀為(batch_size,)
, 可選) — 用於計算序列分類/迴歸損失的標籤。索引應在[0, ..., config.num_labels - 1]
範圍內。如果config.num_labels == 1
,則計算迴歸損失(均方損失),如果config.num_labels > 1
,則計算分類損失(交叉熵)。注意:在原始實現中,這被稱為“classification_class_index”。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通的元組。
返回
transformers.modeling_outputs.SequenceClassifierOutput 或 tuple(torch.FloatTensor)
一個 transformers.modeling_outputs.SequenceClassifierOutput 或一個 torch.FloatTensor
元組(如果傳遞了 return_dict=False
或 config.return_dict=False
),包含根據配置 (TapasConfig) 和輸入而定的各種元素。
-
loss (形狀為
(1,)
的torch.FloatTensor
,可選,當提供labels
時返回) — 分類損失(如果 config.num_labels==1,則為迴歸損失)。 -
logits (形狀為
(batch_size, config.num_labels)
的torch.FloatTensor
) — 分類(如果 config.num_labels==1,則為迴歸)分數(SoftMax 之前)。 -
hidden_states (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) — 形狀為(batch_size, sequence_length, hidden_size)
的torch.FloatTensor
元組(如果模型有嵌入層,則包括嵌入層的輸出,加上每個層的輸出)。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple(torch.FloatTensor)
, 可選, 當傳遞output_attentions=True
或config.output_attentions=True
時返回) — 形狀為(batch_size, num_heads, sequence_length, sequence_length)
的torch.FloatTensor
元組(每個層一個)。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
TapasForSequenceClassification 的前向方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, TapasForSequenceClassification
>>> import torch
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base-finetuned-tabfact")
>>> model = TapasForSequenceClassification.from_pretrained("google/tapas-base-finetuned-tabfact")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = [
... "There is only one actor who is 45 years old",
... "There are 3 actors which played in more than 60 movies",
... ]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="pt")
>>> labels = torch.tensor([1, 0]) # 1 means entailed, 0 means refuted
>>> outputs = model(**inputs, labels=labels)
>>> loss = outputs.loss
>>> logits = outputs.logits
TapasForQuestionAnswering
class transformers.TapasForQuestionAnswering
< source >( config: TapasConfig )
引數
- config (TapasConfig) — 模型配置類,包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法以載入模型權重。
Tapas 模型,帶有單元格選擇頭和可選的聚合頭,用於表格上的問答任務(在隱藏狀態輸出頂部的線性層,用於計算 logits
和可選的 logits_aggregation
),例如用於 SQA、WTQ 或 WikiSQL-supervised 任務。
此模型繼承自 PreTrainedModel。查閱超類文件以瞭解庫為所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 PyTorch torch.nn.Module 子類。將其用作常規 PyTorch 模組,並查閱 PyTorch 文件以瞭解所有與一般使用和行為相關的事項。
forward
< source >( input_ids: typing.Optional[torch.LongTensor] = None attention_mask: typing.Optional[torch.FloatTensor] = None token_type_ids: typing.Optional[torch.LongTensor] = None position_ids: typing.Optional[torch.LongTensor] = None head_mask: typing.Optional[torch.FloatTensor] = None inputs_embeds: typing.Optional[torch.FloatTensor] = None table_mask: typing.Optional[torch.LongTensor] = None labels: typing.Optional[torch.LongTensor] = None aggregation_labels: typing.Optional[torch.LongTensor] = None float_answer: typing.Optional[torch.FloatTensor] = None numeric_values: typing.Optional[torch.FloatTensor] = None numeric_values_scale: typing.Optional[torch.FloatTensor] = None output_attentions: typing.Optional[bool] = None output_hidden_states: typing.Optional[bool] = None return_dict: typing.Optional[bool] = None ) → transformers.models.tapas.modeling_tapas.TableQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
引數
- input_ids (
torch.LongTensor
形狀為(batch_size, sequence_length)
, 可選) — 詞彙表中輸入序列標記的索引。預設情況下會忽略填充。可以使用 AutoTokenizer 獲取索引。有關詳細資訊,請參閱 PreTrainedTokenizer.encode() 和 PreTrainedTokenizer.call()。
- attention_mask (
torch.FloatTensor
形狀為(batch_size, sequence_length)
, 可選) — 避免對填充標記索引執行注意力的掩碼。掩碼值選擇在[0, 1]
中:- 1 表示**未被掩碼**的標記,
- 0 表示**被掩碼**的標記。
- token_type_ids (
torch.LongTensor
形狀為(batch_size, sequence_length, 7)
, 可選) — 編碼表格結構的標記索引。可以使用 AutoTokenizer 獲取索引。有關更多資訊,請參閱此類別。 - 的
reset_position_index_per_cell
設定為True
,將使用相對位置嵌入。選擇範圍為[0, config.max_position_embeddings - 1]
。 - head_mask (
torch.FloatTensor
形狀為(num_heads,)
或(num_layers, num_heads)
, 可選) — 用於使自注意力模組的選定頭部無效的掩碼。掩碼值選擇在[0, 1]
中:- 1 表示頭部**未被掩碼**,
- 0 表示頭部**被掩碼**。
- inputs_embeds (
torch.FloatTensor
形狀為(batch_size, sequence_length, hidden_size)
, 可選) — 可選地,您可以選擇直接傳遞嵌入表示,而不是傳遞input_ids
。如果您希望對input_ids
索引如何轉換為關聯向量擁有比模型內部嵌入查詢矩陣更多的控制權,這將非常有用。 - table_mask (
torch.LongTensor
形狀為(batch_size, seq_length)
, 可選) — 表格的掩碼。表示哪些標記屬於表格 (1)。問題標記、表格標題和填充為 0。 - labels (
torch.LongTensor
形狀為(batch_size, seq_length)
, 可選) — 用於計算分層單元格選擇損失的每個標記的標籤。這編碼了答案在表格中出現的位置。可以使用 AutoTokenizer 獲取。- 1 表示**是答案一部分**的標記,
- 0 表示**不是答案一部分**的標記。
- aggregation_labels (
torch.LongTensor
形狀為(batch_size, )
, 可選) — 批次中每個示例的聚合函式索引,用於計算聚合損失。索引應在[0, ..., config.num_aggregation_labels - 1]
範圍內。僅在需要對聚合進行強監督(WikiSQL-supervised)時才需要。 - float_answer (
torch.FloatTensor
形狀為(batch_size, )
, 可選) — 批次中每個示例的浮點答案。對於單元格選擇問題,設定為 float('nan')。僅在弱監督(WTQ)情況下計算聚合掩碼和迴歸損失時才需要。 - numeric_values (
torch.FloatTensor
形狀為(batch_size, seq_length)
, 可選) — 每個標記的數值,對於非數值標記為 NaN。可以使用 AutoTokenizer 獲取。僅在弱監督(WTQ)情況下計算迴歸損失時才需要。 - numeric_values_scale (
torch.FloatTensor
形狀為(batch_size, seq_length)
, 可選) — 每個標記的數值的比例。可以使用 AutoTokenizer 獲取。僅在弱監督(WTQ)情況下計算迴歸損失時才需要。 - output_attentions (
bool
, 可選) — 是否返回所有注意力層的注意力張量。更多詳情請參閱返回張量下的attentions
。 - output_hidden_states (
bool
, 可選) — 是否返回所有層的隱藏狀態。更多詳情請參閱返回張量下的hidden_states
。 - return_dict (
bool
, 可選) — 是否返回 ModelOutput 而不是普通的元組。
返回
transformers.models.tapas.modeling_tapas.TableQuestionAnsweringOutput 或 tuple(torch.FloatTensor)
一個 transformers.models.tapas.modeling_tapas.TableQuestionAnsweringOutput 或一個 torch.FloatTensor
元組(如果傳遞了 return_dict=False
或 config.return_dict=False
),包含根據配置 (TapasConfig) 和輸入而定的各種元素。
-
loss (
torch.FloatTensor
形狀為(1,)
, 可選, 當提供labels
(以及可能的answer
,aggregation_labels
,numeric_values
和numeric_values_scale
) 時返回) — 總損失,是分層單元格選擇對數似然損失和(可選的)半監督迴歸損失以及(可選的)聚合監督損失的總和。 -
logits (
torch.FloatTensor
形狀為(batch_size, sequence_length)
) — 每個標記的單元格選擇頭的預測分數。 -
logits_aggregation (
torch.FloatTensor
, 可選, 形狀為(batch_size, num_aggregation_labels)
) — 聚合頭的預測分數,針對每個聚合運算子。 -
hidden_states (
tuple[torch.FloatTensor]
, 可選, 當傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) —torch.FloatTensor
元組(如果模型有嵌入層,則包括嵌入層的輸出,加上每一層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及可選的初始嵌入輸出。
-
attentions (
tuple[torch.FloatTensor]
, 可選, 當傳遞output_attentions=True
或config.output_attentions=True
時返回) —torch.FloatTensor
元組(每層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
TapasForQuestionAnswering 的前向方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, TapasForQuestionAnswering
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base-finetuned-wtq")
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base-finetuned-wtq")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = ["How many movies has George Clooney played in?", "How old is Brad Pitt?"]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="pt")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> logits_aggregation = outputs.logits_aggregation
TFTapasModel
class transformers.TFTapasModel
< source >( config: TapasConfig *inputs **kwargs )
引數
- config (TapasConfig) — 模型配置類,包含模型的所有引數。用配置檔案初始化不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法以載入模型權重。
裸 Tapas 模型,輸出原始隱藏狀態,頂部沒有任何特定頭。
此模型繼承自 TFPreTrainedModel。檢視超類文件以瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 keras.Model 子類。將其作為常規的 TF 2.0 Keras 模型使用,並參閱 TF 2.0 文件以瞭解所有與一般用法和行為相關的事項。
transformers
中的 TensorFlow 模型和層接受兩種輸入格式
- 所有輸入作為關鍵字引數(如 PyTorch 模型),或
- 所有輸入作為第一個位置引數中的列表、元組或字典。
支援第二種格式的原因是 Keras 方法在將輸入傳遞給模型和層時更喜歡這種格式。由於這種支援,當使用 model.fit()
等方法時,一切都應該“正常工作”——只需以 model.fit()
支援的任何格式傳遞您的輸入和標籤即可!但是,如果您希望在 Keras 方法(如 fit()
和 predict()
)之外使用第二種格式,例如在使用 Keras Functional
API 建立自己的層或模型時,您可以使用三種可能性將所有輸入張量收集到第一個位置引數中。
- 只有一個
input_ids
的單個張量,沒有其他:model(input_ids)
- 長度可變的列表,包含一個或多個輸入張量,按文件字串中給出的順序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一個字典,其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
請注意,當使用 子類化 建立模型和層時,您無需擔心任何這些問題,因為您可以像傳遞給任何其他 Python 函式一樣傳遞輸入!
呼叫
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tuple(tf.Tensor)
引數
- input_ids (
np.ndarray
,tf.Tensor
,list[tf.Tensor]
`dict[str, tf.Tensor]
或dict[str, np.ndarray]
,且每個示例必須具有形狀(batch_size, sequence_length)
) — 詞彙表中輸入序列標記的索引。索引可以使用 AutoTokenizer 獲取。有關詳細資訊,請參閱 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- attention_mask (形狀為
(batch_size, sequence_length)
的np.ndarray
或tf.Tensor
,可選) — 用於避免在填充標記索引上執行注意力操作的掩碼。在[0, 1]
中選擇掩碼值:- 1 表示未遮蔽的標記,
- 0 表示已遮蔽的標記。
- token_type_ids (形狀為
(batch_size, sequence_length, 7)
的np.ndarray
或tf.Tensor
,可選) — 編碼表格結構的標記索引。索引可以使用 AutoTokenizer 獲取。有關更多資訊,請參閱此類別。 - position_ids (形狀為
(batch_size, sequence_length)
的np.ndarray
或tf.Tensor
,可選) — 輸入序列標記在位置嵌入中的位置索引。如果 TapasConfig 的reset_position_index_per_cell
設定為True
,將使用相對位置嵌入。在[0, config.max_position_embeddings - 1]
範圍內選擇。 - head_mask (形狀為
(num_heads,)
或(num_layers, num_heads)
的np.ndarray
或tf.Tensor
,可選) — 用於遮蔽自注意力模組選定頭部的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示頭部未被遮蔽,
- 0 表示頭部被遮蔽。
- inputs_embeds (形狀為
(batch_size, sequence_length, hidden_size)
的np.ndarray
或tf.Tensor
,可選) — 可選地,你可以選擇直接傳遞嵌入表示,而不是傳遞input_ids
。如果你想更精細地控制如何將input_ids
索引轉換為相關向量,而不是模型內部的嵌入查詢矩陣,這將非常有用。 - output_attentions (
bool
,可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。此引數只能在 eager 模式下使用,在 graph 模式下將使用配置中的值。 - output_hidden_states (
bool
,可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。此引數只能在 eager 模式下使用,在 graph 模式下將使用配置中的值。 - return_dict (
bool
,可選) — 是否返回 ModelOutput 而不是純元組。此引數可在 eager 模式下使用,在 graph 模式下,其值將始終設定為 True。 - training (
bool
,可選,預設為 `False“) — 是否在訓練模式下使用模型(某些模組,如 Dropout 模組,在訓練和評估之間具有不同的行為)。
返回
transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tuple(tf.Tensor)
一個 transformers.modeling_tf_outputs.TFBaseModelOutputWithPooling 或 tf.Tensor
的元組(如果傳遞 return_dict=False
或 config.return_dict=False
時),包含根據配置(TapasConfig)和輸入而定的各種元素。
-
last_hidden_state (
tf.Tensor
of shape(batch_size, sequence_length, hidden_size)
) — 模型最後一層輸出的隱藏狀態序列。 -
pooler_output (形狀為
(batch_size, hidden_size)
的tf.Tensor
) — 序列第一個標記(分類標記)的最後一層隱藏狀態,經過線性層和 Tanh 啟用函式進一步處理。線性層權重在預訓練期間根據下一個句子預測(分類)目標進行訓練。此輸出通常不是輸入語義內容的良好摘要,通常最好對整個輸入序列的隱藏狀態進行平均或池化。
-
hidden_states (
tuple(tf.Tensor)
,可選,在傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) — 形狀為(batch_size, sequence_length, hidden_size)
的tf.Tensor
元組(一個用於嵌入輸出 + 每個層一個輸出)。模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
-
attentions (
tuple(tf.Tensor)
,可選,在傳遞output_attentions=True
或config.output_attentions=True
時返回) — 形狀為(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元組(每個層一個)。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
TFTapasModel 的 forward 方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, TapasModel
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base")
>>> model = TapasModel.from_pretrained("google/tapas-base")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = ["How many movies has George Clooney played in?", "How old is Brad Pitt?"]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="tf")
>>> outputs = model(**inputs)
>>> last_hidden_states = outputs.last_hidden_state
TFTapasForMaskedLM
class transformers.TFTapasForMaskedLM
< source >( config: TapasConfig *inputs **kwargs )
引數
- config (TapasConfig) — 模型的配置類,包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法以載入模型權重。
帶有 language modeling
頭部的 Tapas 模型。
此模型繼承自 TFPreTrainedModel。檢視超類文件以瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 keras.Model 子類。將其作為常規的 TF 2.0 Keras 模型使用,並參閱 TF 2.0 文件以瞭解所有與一般用法和行為相關的事項。
transformers
中的 TensorFlow 模型和層接受兩種輸入格式
- 所有輸入作為關鍵字引數(如 PyTorch 模型),或
- 所有輸入作為第一個位置引數中的列表、元組或字典。
支援第二種格式的原因是 Keras 方法在將輸入傳遞給模型和層時更喜歡這種格式。由於這種支援,當使用 model.fit()
等方法時,一切都應該“正常工作”——只需以 model.fit()
支援的任何格式傳遞您的輸入和標籤即可!但是,如果您希望在 Keras 方法(如 fit()
和 predict()
)之外使用第二種格式,例如在使用 Keras Functional
API 建立自己的層或模型時,您可以使用三種可能性將所有輸入張量收集到第一個位置引數中。
- 只有一個
input_ids
的單個張量,沒有其他:model(input_ids)
- 長度可變的列表,包含一個或多個輸入張量,按文件字串中給出的順序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一個字典,其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
請注意,當使用 子類化 建立模型和層時,您無需擔心任何這些問題,因為您可以像傳遞給任何其他 Python 函式一樣傳遞輸入!
呼叫
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tuple(tf.Tensor)
引數
- input_ids (
np.ndarray
,tf.Tensor
,list[tf.Tensor]
`dict[str, tf.Tensor]
或dict[str, np.ndarray]
,且每個示例必須具有形狀(batch_size, sequence_length)
) — 詞彙表中輸入序列標記的索引。索引可以使用 AutoTokenizer 獲取。有關詳細資訊,請參閱 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- attention_mask (形狀為
(batch_size, sequence_length)
的np.ndarray
或tf.Tensor
,可選) — 用於避免在填充標記索引上執行注意力操作的掩碼。在[0, 1]
中選擇掩碼值:- 1 表示未遮蔽的標記,
- 0 表示已遮蔽的標記。
- token_type_ids (形狀為
(batch_size, sequence_length, 7)
的np.ndarray
或tf.Tensor
,可選) — 編碼表格結構的標記索引。索引可以使用 AutoTokenizer 獲取。有關更多資訊,請參閱此類別。 - position_ids (形狀為
(batch_size, sequence_length)
的np.ndarray
或tf.Tensor
,可選) — 輸入序列標記在位置嵌入中的位置索引。如果 TapasConfig 的reset_position_index_per_cell
設定為True
,將使用相對位置嵌入。在[0, config.max_position_embeddings - 1]
範圍內選擇。 - head_mask (形狀為
(num_heads,)
或(num_layers, num_heads)
的np.ndarray
或tf.Tensor
,可選) — 用於遮蔽自注意力模組選定頭部的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示頭部未被遮蔽,
- 0 表示頭部被遮蔽。
- inputs_embeds (形狀為
(batch_size, sequence_length, hidden_size)
的np.ndarray
或tf.Tensor
,可選) — 可選地,你可以選擇直接傳遞嵌入表示,而不是傳遞input_ids
。如果你想更精細地控制如何將input_ids
索引轉換為相關向量,而不是模型內部的嵌入查詢矩陣,這將非常有用。 - output_attentions (
bool
,可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。此引數只能在 eager 模式下使用,在 graph 模式下將使用配置中的值。 - output_hidden_states (
bool
,可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。此引數只能在 eager 模式下使用,在 graph 模式下將使用配置中的值。 - return_dict (
bool
,可選) — 是否返回 ModelOutput 而不是純元組。此引數可在 eager 模式下使用,在 graph 模式下,其值將始終設定為 True。 - training (
bool
,可選,預設為 `False“) — 是否在訓練模式下使用模型(某些模組,如 Dropout 模組,在訓練和評估之間具有不同的行為)。 - labels (形狀為
(batch_size, sequence_length)
的tf.Tensor
或np.ndarray
,可選) — 用於計算遮蔽語言建模損失的標籤。索引應在[-100, 0, ..., config.vocab_size]
之間(請參閱input_ids
文件字串)。索引設定為-100
的標記將被忽略(遮蔽),損失僅針對標籤在[0, ..., config.vocab_size]
之間的標記計算。
返回
transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tuple(tf.Tensor)
一個 transformers.modeling_tf_outputs.TFMaskedLMOutput 或 tf.Tensor
的元組(如果傳遞 return_dict=False
或 config.return_dict=False
時),包含根據配置(TapasConfig)和輸入而定的各種元素。
-
loss (
tf.Tensor
of shape(n,)
, 可選, 其中 n 是非掩碼標籤的數量,當提供labels
時返回) — 掩碼語言模型 (MLM) 損失。 -
logits (
tf.Tensor
of shape(batch_size, sequence_length, config.vocab_size)
) — 語言模型頭部的預測分數(SoftMax 之前每個詞彙標記的分數)。 -
hidden_states (
tuple(tf.Tensor)
,可選,在傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) — 形狀為(batch_size, sequence_length, hidden_size)
的tf.Tensor
元組(一個用於嵌入輸出 + 每個層一個輸出)。模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
-
attentions (
tuple(tf.Tensor)
,可選,在傳遞output_attentions=True
或config.output_attentions=True
時返回) — 形狀為(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元組(每個層一個)。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
TFTapasForMaskedLM 的 forward 方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, TapasForMaskedLM
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base")
>>> model = TapasForMaskedLM.from_pretrained("google/tapas-base")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> inputs = tokenizer(
... table=table, queries="How many [MASK] has George [MASK] played in?", return_tensors="tf"
... )
>>> labels = tokenizer(
... table=table, queries="How many movies has George Clooney played in?", return_tensors="tf"
... )["input_ids"]
>>> outputs = model(**inputs, labels=labels)
>>> logits = outputs.logits
TFTapasForSequenceClassification
class transformers.TFTapasForSequenceClassification
< source >( config: TapasConfig *inputs **kwargs )
引數
- config (TapasConfig) — 模型的配置類,包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法以載入模型權重。
帶有序列分類頭的 Tapas 模型(池化輸出頂部的線性層),例如用於表格蘊涵任務,如 TabFact (Chen et al., 2020)。
此模型繼承自 TFPreTrainedModel。檢視超類文件以瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 keras.Model 子類。將其作為常規的 TF 2.0 Keras 模型使用,並參閱 TF 2.0 文件以瞭解所有與一般用法和行為相關的事項。
transformers
中的 TensorFlow 模型和層接受兩種輸入格式
- 所有輸入作為關鍵字引數(如 PyTorch 模型),或
- 所有輸入作為第一個位置引數中的列表、元組或字典。
支援第二種格式的原因是 Keras 方法在將輸入傳遞給模型和層時更喜歡這種格式。由於這種支援,當使用 model.fit()
等方法時,一切都應該“正常工作”——只需以 model.fit()
支援的任何格式傳遞您的輸入和標籤即可!但是,如果您希望在 Keras 方法(如 fit()
和 predict()
)之外使用第二種格式,例如在使用 Keras Functional
API 建立自己的層或模型時,您可以使用三種可能性將所有輸入張量收集到第一個位置引數中。
- 只有一個
input_ids
的單個張量,沒有其他:model(input_ids)
- 長度可變的列表,包含一個或多個輸入張量,按文件字串中給出的順序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一個字典,其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
請注意,當使用 子類化 建立模型和層時,您無需擔心任何這些問題,因為您可以像傳遞給任何其他 Python 函式一樣傳遞輸入!
呼叫
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)
引數
- input_ids (
np.ndarray
,tf.Tensor
,list[tf.Tensor]
`dict[str, tf.Tensor]
或dict[str, np.ndarray]
,且每個示例必須具有形狀(batch_size, num_choices, sequence_length)
) — 詞彙表中輸入序列標記的索引。索引可以使用 AutoTokenizer 獲取。有關詳細資訊,請參閱 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- attention_mask (形狀為
(batch_size, num_choices, sequence_length)
的np.ndarray
或tf.Tensor
,可選) — 用於避免在填充標記索引上執行注意力操作的掩碼。在[0, 1]
中選擇掩碼值:- 1 表示未遮蔽的標記,
- 0 表示已遮蔽的標記。
- token_type_ids (形狀為
(batch_size, num_choices, sequence_length, 7)
的np.ndarray
或tf.Tensor
,可選) — 編碼表格結構的標記索引。索引可以使用 AutoTokenizer 獲取。有關更多資訊,請參閱此類別。 - position_ids (形狀為
(batch_size, num_choices, sequence_length)
的np.ndarray
或tf.Tensor
,可選) — 輸入序列標記在位置嵌入中的位置索引。如果 TapasConfig 的reset_position_index_per_cell
設定為True
,將使用相對位置嵌入。在[0, config.max_position_embeddings - 1]
範圍內選擇。 - head_mask (形狀為
(num_heads,)
或(num_layers, num_heads)
的np.ndarray
或tf.Tensor
,可選) — 用於遮蔽自注意力模組選定頭部的掩碼。掩碼值在[0, 1]
中選擇:- 1 表示頭部未被遮蔽,
- 0 表示頭部被遮蔽。
- inputs_embeds (形狀為
(batch_size, num_choices, sequence_length, hidden_size)
的np.ndarray
或tf.Tensor
,可選) — 可選地,你可以選擇直接傳遞嵌入表示,而不是傳遞input_ids
。如果你想更精細地控制如何將input_ids
索引轉換為相關向量,而不是模型內部的嵌入查詢矩陣,這將非常有用。 - output_attentions (
bool
,可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。此引數只能在 eager 模式下使用,在 graph 模式下將使用配置中的值。 - output_hidden_states (
bool
,可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。此引數只能在 eager 模式下使用,在 graph 模式下將使用配置中的值。 - return_dict (
bool
,可選) — 是否返回 ModelOutput 而不是純元組。此引數可在 eager 模式下使用,在 graph 模式下,其值將始終設定為 True。 - training (
bool
,可選,預設為 `False“) — 是否在訓練模式下使用模型(某些模組,如 Dropout 模組,在訓練和評估之間具有不同的行為)。 - labels (形狀為
(batch_size,)
的torch.LongTensor
,可選) — 用於計算序列分類/迴歸損失的標籤。索引應在[0, ..., config.num_labels - 1]
之間。如果config.num_labels == 1
,則計算迴歸損失(均方損失),如果config.num_labels > 1
,則計算分類損失(交叉熵)。注意:在原始實現中,這被稱為“classification_class_index”。
返回
transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tuple(tf.Tensor)
一個 transformers.modeling_tf_outputs.TFSequenceClassifierOutput 或 tf.Tensor
的元組(如果傳遞 return_dict=False
或 config.return_dict=False
時),包含根據配置(TapasConfig)和輸入而定的各種元素。
-
loss (
tf.Tensor
,形狀為(batch_size, )
,可選,當提供labels
時返回) — 分類損失(如果 config.num_labels==1,則為迴歸損失)。 -
logits (
tf.Tensor
,形狀為(batch_size, config.num_labels)
) — 分類(或迴歸,如果 config.num_labels==1)分數(SoftMax 之前)。 -
hidden_states (
tuple(tf.Tensor)
,可選,在傳遞output_hidden_states=True
或config.output_hidden_states=True
時返回) — 形狀為(batch_size, sequence_length, hidden_size)
的tf.Tensor
元組(一個用於嵌入輸出 + 每個層一個輸出)。模型在每個層輸出的隱藏狀態加上初始嵌入輸出。
-
attentions (
tuple(tf.Tensor)
,可選,在傳遞output_attentions=True
或config.output_attentions=True
時返回) — 形狀為(batch_size, num_heads, sequence_length, sequence_length)
的tf.Tensor
元組(每個層一個)。注意力 softmax 後的注意力權重,用於計算自注意力頭中的加權平均值。
TFTapasForSequenceClassification 的 forward 方法,覆蓋了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, TapasForSequenceClassification
>>> import tensorflow as tf
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base-finetuned-tabfact")
>>> model = TapasForSequenceClassification.from_pretrained("google/tapas-base-finetuned-tabfact")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = [
... "There is only one actor who is 45 years old",
... "There are 3 actors which played in more than 60 movies",
... ]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="tf")
>>> labels = tf.convert_to_tensor([1, 0]) # 1 means entailed, 0 means refuted
>>> outputs = model(**inputs, labels=labels)
>>> loss = outputs.loss
>>> logits = outputs.logits
TFTapasForQuestionAnswering
class transformers.TFTapasForQuestionAnswering
< source >( config: TapasConfig *inputs **kwargs )
引數
- config (TapasConfig) — 模型的配置類,包含模型的所有引數。使用配置檔案初始化並不會載入與模型相關的權重,只加載配置。請檢視 from_pretrained() 方法以載入模型權重。
Tapas 模型,帶有單元格選擇頭和可選的聚合頭,用於表格上的問答任務(在隱藏狀態輸出頂部的線性層,用於計算 logits
和可選的 logits_aggregation
),例如用於 SQA、WTQ 或 WikiSQL-supervised 任務。
此模型繼承自 TFPreTrainedModel。檢視超類文件以瞭解庫為其所有模型實現的通用方法(例如下載或儲存、調整輸入嵌入大小、修剪頭部等)。
此模型也是 keras.Model 子類。將其作為常規的 TF 2.0 Keras 模型使用,並參閱 TF 2.0 文件以瞭解所有與一般用法和行為相關的事項。
transformers
中的 TensorFlow 模型和層接受兩種輸入格式
- 所有輸入作為關鍵字引數(如 PyTorch 模型),或
- 所有輸入作為第一個位置引數中的列表、元組或字典。
支援第二種格式的原因是 Keras 方法在將輸入傳遞給模型和層時更喜歡這種格式。由於這種支援,當使用 model.fit()
等方法時,一切都應該“正常工作”——只需以 model.fit()
支援的任何格式傳遞您的輸入和標籤即可!但是,如果您希望在 Keras 方法(如 fit()
和 predict()
)之外使用第二種格式,例如在使用 Keras Functional
API 建立自己的層或模型時,您可以使用三種可能性將所有輸入張量收集到第一個位置引數中。
- 只有一個
input_ids
的單個張量,沒有其他:model(input_ids)
- 長度可變的列表,包含一個或多個輸入張量,按文件字串中給出的順序:
model([input_ids, attention_mask])
或model([input_ids, attention_mask, token_type_ids])
- 一個字典,其中包含一個或多個與文件字串中給出的輸入名稱關聯的輸入張量:
model({"input_ids": input_ids, "token_type_ids": token_type_ids})
請注意,當使用 子類化 建立模型和層時,您無需擔心任何這些問題,因為您可以像傳遞給任何其他 Python 函式一樣傳遞輸入!
呼叫
< source >( input_ids: TFModelInputType | None = None attention_mask: np.ndarray | tf.Tensor | None = None token_type_ids: np.ndarray | tf.Tensor | None = None position_ids: np.ndarray | tf.Tensor | None = None head_mask: np.ndarray | tf.Tensor | None = None inputs_embeds: np.ndarray | tf.Tensor | None = None table_mask: np.ndarray | tf.Tensor | None = None aggregation_labels: np.ndarray | tf.Tensor | None = None float_answer: np.ndarray | tf.Tensor | None = None numeric_values: np.ndarray | tf.Tensor | None = None numeric_values_scale: np.ndarray | tf.Tensor | None = None output_attentions: Optional[bool] = None output_hidden_states: Optional[bool] = None return_dict: Optional[bool] = None labels: np.ndarray | tf.Tensor | None = None training: Optional[bool] = False ) → transformers.models.tapas.modeling_tf_tapas.TFTableQuestionAnsweringOutput
or tuple(tf.Tensor)
引數
- input_ids (
np.ndarray
,tf.Tensor
,list[tf.Tensor]
`dict[str, tf.Tensor]
或dict[str, np.ndarray]
且每個示例必須具有形狀(batch_size, sequence_length)
) — 詞彙表中輸入序列 token 的索引。索引可以使用 AutoTokenizer 獲得。詳細資訊請參閱 PreTrainedTokenizer.call() 和 PreTrainedTokenizer.encode()。
- attention_mask (
np.ndarray
或tf.Tensor
,形狀為(batch_size, sequence_length)
,可選) — 掩碼,用於避免在填充 token 索引上執行注意力。掩碼值選擇在[0, 1]
中:- 1 表示 token 未被掩蓋,
- 0 表示 token 被掩蓋。
- token_type_ids (
np.ndarray
或tf.Tensor
,形狀為(batch_size, sequence_length, 7)
,可選) — 編碼表格結構的 token 索引。索引可以使用 AutoTokenizer 獲得。有關更多資訊,請參閱此類別。 - position_ids (
np.ndarray
或tf.Tensor
,形狀為(batch_size, sequence_length)
,可選) — 位置嵌入中每個輸入序列 token 的位置索引。如果 TapasConfig 的reset_position_index_per_cell
設定為True
,則將使用相對位置嵌入。選擇範圍為[0, config.max_position_embeddings - 1]
。 - head_mask (
np.ndarray
或tf.Tensor
,形狀為(num_heads,)
或(num_layers, num_heads)
,可選) — 掩碼,用於使自注意力模組的選定頭部無效。掩碼值選擇在[0, 1]
中:- 1 表示頭部未被掩蓋,
- 0 表示頭部被掩蓋。
- inputs_embeds (
np.ndarray
或tf.Tensor
,形狀為(batch_size, sequence_length, hidden_size)
,可選) — 可選地,您可以直接傳入嵌入表示,而不是傳入input_ids
。如果您想對如何將input_ids
索引轉換為相關向量有更多控制,而不是模型的內部嵌入查詢矩陣,這將很有用。 - output_attentions (
bool
,可選) — 是否返回所有注意力層的注意力張量。有關更多詳細資訊,請參閱返回張量下的attentions
。此引數只能在 eager 模式下使用,在圖模式下將使用 config 中的值。 - output_hidden_states (
bool
,可選) — 是否返回所有層的隱藏狀態。有關更多詳細資訊,請參閱返回張量下的hidden_states
。此引數只能在 eager 模式下使用,在圖模式下將使用 config 中的值。 - return_dict (
bool
,可選) — 是否返回 ModelOutput 而不是普通的元組。此引數可在 eager 模式下使用,在圖模式下該值將始終設定為 True。 - training (
bool
,可選,預設為False
) — 是否在訓練模式下使用模型(某些模組如 dropout 模組在訓練和評估之間有不同的行為)。 - table_mask (
tf.Tensor
,形狀為(batch_size, seq_length)
,可選) — 表格的掩碼。指示哪些 token 屬於表格 (1)。問題 token、表格標題和填充為 0。 - labels (
tf.Tensor
,形狀為(batch_size, seq_length)
,可選) — 用於計算分層單元格選擇損失的每個 token 的標籤。這編碼了答案在表格中出現的位置。可以使用 AutoTokenizer 獲得。- 1 表示 token 是答案的一部分,
- 0 表示 token 不是答案的一部分。
- aggregation_labels (
tf.Tensor
,形狀為(batch_size, )
,可選) — 用於計算聚合損失的批次中每個示例的聚合函式索引。索引應在[0, ..., config.num_aggregation_labels - 1]
範圍內。僅在需要對聚合進行強監督(WikiSQL-supervised)時才需要。 - float_answer (
tf.Tensor
,形狀為(batch_size, )
,可選) — 批次中每個示例的浮點答案。對於單元格選擇問題,設定為 float('nan')。僅在弱監督(WTQ)情況下,才需要計算聚合掩碼和迴歸損失。 - numeric_values (
tf.Tensor
,形狀為(batch_size, seq_length)
,可選) — 每個 token 的數值,非數值 token 為 NaN。可以使用 AutoTokenizer 獲得。僅在對聚合進行弱監督(WTQ)時才需要,用於計算迴歸損失。 - numeric_values_scale (
tf.Tensor
,形狀為(batch_size, seq_length)
,可選) — 每個 token 數值的比例。可以使用 AutoTokenizer 獲得。僅在對聚合進行弱監督(WTQ)時才需要,用於計算迴歸損失。
返回
transformers.models.tapas.modeling_tf_tapas.TFTableQuestionAnsweringOutput
或 tuple(tf.Tensor)
一個 transformers.models.tapas.modeling_tf_tapas.TFTableQuestionAnsweringOutput
或 tf.Tensor
的元組(如果傳入 return_dict=False
或 config.return_dict=False
時),包含根據配置 (TapasConfig) 和輸入而定的各種元素。
- loss (
tf.Tensor
,形狀為(1,)
,可選,在提供labels
(可能還有answer
、aggregation_labels
、numeric_values
和numeric_values_scale
)時返回) — 總損失,是分層單元格選擇對數似然損失與(可選的)半監督迴歸損失和(可選的)聚合監督損失之和。 - logits (
tf.Tensor
,形狀為(batch_size, sequence_length)
) — 單元格選擇頭部的預測分數,針對每個 token。 - logits_aggregation (
tf.Tensor
,可選,形狀為(batch_size, num_aggregation_labels)
) — 聚合頭部的預測分數,針對每個聚合運算子。 - hidden_states (
tuple(tf.Tensor)
,可選,當傳入output_hidden_states=True
或config.output_hidden_states=True
時返回) —tf.Tensor
的元組(一個用於嵌入輸出,一個用於每個層的輸出),形狀為(batch_size, sequence_length, hidden_size)
。模型在每個層輸出的隱藏狀態以及初始嵌入輸出。 - attentions (
tuple(tf.Tensor)
,可選,當傳入output_attentions=True
或config.output_attentions=True
時返回) —tf.Tensor
的元組(每個層一個),形狀為(batch_size, num_heads, sequence_length, sequence_length)
。注意力 softmax 之後的注意力權重,用於計算自注意力頭部的加權平均。
TFTapasForQuestionAnswering 的 forward 方法,重寫了 __call__
特殊方法。
儘管前向傳播的配方需要在此函式中定義,但在此之後應該呼叫 Module
例項,而不是此函式,因為前者負責執行預處理和後處理步驟,而後者則默默地忽略它們。
示例
>>> from transformers import AutoTokenizer, TapasForQuestionAnswering
>>> import pandas as pd
>>> tokenizer = AutoTokenizer.from_pretrained("google/tapas-base-finetuned-wtq")
>>> model = TapasForQuestionAnswering.from_pretrained("google/tapas-base-finetuned-wtq")
>>> data = {
... "Actors": ["Brad Pitt", "Leonardo Di Caprio", "George Clooney"],
... "Age": ["56", "45", "59"],
... "Number of movies": ["87", "53", "69"],
... }
>>> table = pd.DataFrame.from_dict(data)
>>> queries = ["How many movies has George Clooney played in?", "How old is Brad Pitt?"]
>>> inputs = tokenizer(table=table, queries=queries, padding="max_length", return_tensors="tf")
>>> outputs = model(**inputs)
>>> logits = outputs.logits
>>> logits_aggregation = outputs.logits_aggregation