Transformers 文件
T5v1.1
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
T5v1.1
概述
T5v1.1 由 Colin Raffel 等人在 google-research/text-to-text-transfer-transformer 倉庫中釋出。它是原始 T5 模型的改進版本。此模型由 patrickvonplaten 貢獻。原始程式碼可以在這裡找到。
使用提示
可以直接將 T5v1.1 的權重載入到 T5 模型中,就像這樣:
>>> from transformers import T5ForConditionalGeneration
>>> model = T5ForConditionalGeneration.from_pretrained("google/t5-v1_1-base")
與原始 T5 模型相比,T5 版本 1.1 包含以下改進:
在前饋隱藏層中使用 GEGLU 啟用函式,而不是 ReLU。請參閱這篇論文。
在預訓練期間關閉了 Dropout(質量提升)。在微調期間應重新啟用 Dropout。
僅在 C4 資料集上進行預訓練,沒有混合下游任務。
嵌入層和分類器層之間沒有引數共享。
“xl”和“xxl”取代了“3B”和“11B”。模型形狀略有不同——更大的 `d_model` 和更小的 `num_heads` 和 `d_ff`。
注意:T5 版本 1.1 僅在 C4 資料集上進行預訓練,不包括任何監督訓練。因此,該模型必須在下游任務上進行微調後才能使用,這與原始 T5 模型不同。由於 t5v1.1 是在無監督方式下預訓練的,因此在單任務微調期間使用任務字首沒有真正的優勢。如果進行多工微調,則應使用字首。
Google 釋出了以下變體:
請參閱 T5 的文件頁面,以獲取所有 API 參考、提示、程式碼示例和筆記本。