自然語言處理與大型語言模型

在深入瞭解 Transformer 模型之前，讓我們先快速概述一下什麼是自然語言處理，大型語言模型如何改變了該領域，以及我們為什麼關心它。

什麼是 NLP？

NLP 是語言學和機器學習的一個領域，專注於理解與人類語言相關的一切。NLP 任務的目標不僅是理解單個詞語，還要能夠理解這些詞語的上下文。

以下是一些常見的 NLP 任務列表，並附帶了一些例子

對整個句子進行分類：獲取評論的情感、檢測電子郵件是否為垃圾郵件、判斷句子是否語法正確，或兩個句子是否在邏輯上相關。
對句子中的每個詞進行分類：識別句子的語法成分（名詞、動詞、形容詞），或命名實體（人名、地名、組織名）。
生成文字內容：用自動生成的文字補全提示，或用掩碼詞填補文字中的空白。
從文字中提取答案：給定一個問題和一個上下文，根據上下文中提供的資訊提取問題的答案。
根據輸入文字生成新句子：將文字翻譯成另一種語言，或對文字進行總結。

NLP 並不侷限於書面文字。它還處理語音識別和計算機視覺中的複雜挑戰，例如生成音訊樣本的轉錄文字或影像的描述。

大型語言模型（LLM）的興起

近年來，NLP 領域被大型語言模型（LLM）徹底改變。這些模型，包括像 GPT（Generative Pre-trained Transformer，生成式預訓練 Transformer）和 Llama 這樣的架構，已經改變了語言處理的可能性。

大型語言模型（LLM）是一種在海量文字資料上訓練的 AI 模型，它能夠理解和生成類似人類的文字、識別語言中的模式，並無需針對特定任務進行訓練即可執行各種語言任務。它們代表了自然語言處理（NLP）領域的重大進步。

LLM 的特點是：

規模：它們包含數百萬、數十億甚至數千億個引數。
通用能力：它們可以執行多種任務，而無需針對特定任務進行訓練。
上下文學習：它們可以從提示中提供的示例中學習。
湧現能力：隨著這些模型規模的增長，它們展示出未被明確程式設計或預期的能力。

LLM 的出現改變了以往為特定 NLP 任務構建專門模型的正規化，轉而使用一個單一的大型模型，透過提示或微調來處理廣泛的語言任務。這使得複雜的語言處理變得更加普及，同時也帶來了效率、倫理和部署等方面的新挑戰。

然而，LLM 也有重要的侷限性：

幻覺：它們可能會自信地生成不正確的資訊。
缺乏真正的理解：它們缺乏對世界的真正理解，純粹基於統計模式進行操作。
偏見：它們可能會復現其訓練資料或輸入中存在的偏見。
上下文視窗：它們的上下文視窗有限（儘管這一點正在改進）。
計算資源：它們需要大量的計算資源。

為什麼語言處理具有挑戰性？

計算機處理資訊的方式與人類不同。例如，當我們讀到“我餓了”這個句子時，我們能輕易理解它的意思。同樣，給定兩個句子，如“我餓了”和“我很難過”，我們能輕易判斷它們的相似程度。對於機器學習（ML）模型來說，這類任務要困難得多。文字需要經過處理，才能讓模型從中學習。由於語言的複雜性，我們需要仔細考慮如何進行這種處理。關於如何表示文字，已經有很多研究，我們將在下一章探討一些方法。

即使 LLM 取得了進步，許多根本性的挑戰依然存在。這些挑戰包括理解歧義、文化背景、諷刺和幽默。LLM 透過在多樣化的資料集上進行大規模訓練來應對這些挑戰，但在許多複雜場景中，它們仍然無法達到人類水平的理解能力。

< > 在 GitHub 上更新

LLM 課程

自然語言處理與大型語言模型

什麼是 NLP？

大型語言模型（LLM）的興起

為什麼語言處理具有挑戰性？