Transformers 文件
UL2
並獲得增強的文件體驗
開始使用
UL2
概述
T5 模型在 Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Neil Houlsby、Donald Metzler 的 Unifying Language Learning Paradigms 中提出。
論文摘要如下:
現有的預訓練模型通常針對特定類別的問題。迄今為止,對於正確的架構和預訓練設定應該是什麼,似乎仍未達成共識。本文提出了一個統一的框架,用於預訓練在不同資料集和設定中普遍有效的模型。我們首先將架構原型與預訓練目標解耦——這兩個概念通常是混淆的。接下來,我們提出了自然語言處理中自監督的廣義統一視角,並展示了不同的預訓練目標如何相互轉換,以及在不同目標之間進行插值如何有效。然後,我們提出了 Mixture-of-Denoisers (MoD),這是一種結合了多種預訓練正規化的預訓練目標。此外,我們引入了模式切換的概念,其中下游微調與特定的預訓練方案相關聯。我們進行了廣泛的消融實驗,比較了多個預訓練目標,發現我們的方法透過在多種不同設定中優於 T5 和/或 GPT 類模型,從而推動了帕累託前沿。最後,透過將我們的模型擴充套件到 20B 引數,我們在 50 個成熟的監督 NLP 任務上實現了 SOTA 效能,這些任務涵蓋了語言生成(包括自動和人工評估)、語言理解、文字分類、問答、常識推理、長文字推理、結構化知識基礎和資訊檢索。我們的模型還在情境學習中取得了顯著成果,在零樣本 SuperGLUE 上優於 175B GPT-3,並在單樣本摘要中將 T5-XXL 的效能提高了三倍。
此模型由 DanielHesslow 貢獻。原始程式碼可在此處找到。
使用技巧
- UL2 是一個編碼器-解碼器模型,預訓練了一系列去噪函式,並在一系列下游任務上進行了微調。
- UL2 的架構與 T5v1.1 相同,但使用 Gated-SiLU 啟用函式代替 Gated-GELU。
- 作者釋出了一個架構的檢查點,可以在此處檢視
由於 UL2 的架構與 T5v1.1 相同,請參閱T5 的文件頁面以獲取 API 參考、提示、程式碼示例和筆記本。