序列到序列模型 sequence-to-sequence-models

編碼器-解碼器模型（也稱為序列到序列模型）使用了 Transformer 架構的兩個部分。在每個階段，編碼器的注意力層可以訪問初始句子中的所有單詞，而解碼器的注意力層只能訪問給定單詞之前輸入中的單詞。

這些模型的預訓練可以透過使用編碼器或解碼器模型的目標來完成，但通常會涉及一些更復雜的東西。例如，T5 透過用單個掩碼特殊詞替換文字的隨機跨度（可以包含多個詞）進行預訓練，然後目標是預測此掩碼詞替換的文字。

序列到序列模型最適合用於圍繞根據給定輸入生成新句子（例如摘要、翻譯或生成式問答）的任務。

此模型系列的代表包括

NLP 課程