Transformers 文件

UL2

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

UL2

PyTorch TensorFlow Flax

概述

T5 模型在 Yi Tay、Mostafa Dehghani、Vinh Q. Tran、Xavier Garcia、Dara Bahri、Tal Schuster、Huaixiu Steven Zheng、Neil Houlsby、Donald Metzler 的 Unifying Language Learning Paradigms 中提出。

論文摘要如下:

現有的預訓練模型通常針對特定類別的問題。迄今為止,對於正確的架構和預訓練設定應該是什麼,似乎仍未達成共識。本文提出了一個統一的框架,用於預訓練在不同資料集和設定中普遍有效的模型。我們首先將架構原型與預訓練目標解耦——這兩個概念通常是混淆的。接下來,我們提出了自然語言處理中自監督的廣義統一視角,並展示了不同的預訓練目標如何相互轉換,以及在不同目標之間進行插值如何有效。然後,我們提出了 Mixture-of-Denoisers (MoD),這是一種結合了多種預訓練正規化的預訓練目標。此外,我們引入了模式切換的概念,其中下游微調與特定的預訓練方案相關聯。我們進行了廣泛的消融實驗,比較了多個預訓練目標,發現我們的方法透過在多種不同設定中優於 T5 和/或 GPT 類模型,從而推動了帕累託前沿。最後,透過將我們的模型擴充套件到 20B 引數,我們在 50 個成熟的監督 NLP 任務上實現了 SOTA 效能,這些任務涵蓋了語言生成(包括自動和人工評估)、語言理解、文字分類、問答、常識推理、長文字推理、結構化知識基礎和資訊檢索。我們的模型還在情境學習中取得了顯著成果,在零樣本 SuperGLUE 上優於 175B GPT-3,並在單樣本摘要中將 T5-XXL 的效能提高了三倍。

此模型由 DanielHesslow 貢獻。原始程式碼可在此處找到。

使用技巧

  • UL2 是一個編碼器-解碼器模型,預訓練了一系列去噪函式,並在一系列下游任務上進行了微調。
  • UL2 的架構與 T5v1.1 相同,但使用 Gated-SiLU 啟用函式代替 Gated-GELU。
  • 作者釋出了一個架構的檢查點,可以在此處檢視

由於 UL2 的架構與 T5v1.1 相同,請參閱T5 的文件頁面以獲取 API 參考、提示、程式碼示例和筆記本。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.