加入 Hugging Face 社群
並獲得增強文件體驗
開始使用
序列到序列模型 sequence-to-sequence-models
編碼器-解碼器模型(也稱為序列到序列模型)使用了 Transformer 架構的兩個部分。在每個階段,編碼器的注意力層可以訪問初始句子中的所有單詞,而解碼器的注意力層只能訪問給定單詞之前輸入中的單詞。
這些模型的預訓練可以透過使用編碼器或解碼器模型的目標來完成,但通常會涉及一些更復雜的東西。例如,T5 透過用單個掩碼特殊詞替換文字的隨機跨度(可以包含多個詞)進行預訓練,然後目標是預測此掩碼詞替換的文字。
序列到序列模型最適合用於圍繞根據給定輸入生成新句子(例如摘要、翻譯或生成式問答)的任務。
此模型系列的代表包括