LLM 課程文件
自然語言處理與大型語言模型
並獲得增強的文件體驗
開始使用
自然語言處理與大型語言模型
在深入瞭解 Transformer 模型之前,讓我們先快速概述一下什麼是自然語言處理,大型語言模型如何改變了該領域,以及我們為什麼關心它。
什麼是 NLP?
NLP 是語言學和機器學習的一個領域,專注於理解與人類語言相關的一切。NLP 任務的目標不僅是理解單個詞語,還要能夠理解這些詞語的上下文。
以下是一些常見的 NLP 任務列表,並附帶了一些例子
- 對整個句子進行分類:獲取評論的情感、檢測電子郵件是否為垃圾郵件、判斷句子是否語法正確,或兩個句子是否在邏輯上相關。
- 對句子中的每個詞進行分類:識別句子的語法成分(名詞、動詞、形容詞),或命名實體(人名、地名、組織名)。
- 生成文字內容:用自動生成的文字補全提示,或用掩碼詞填補文字中的空白。
- 從文字中提取答案:給定一個問題和一個上下文,根據上下文中提供的資訊提取問題的答案。
- 根據輸入文字生成新句子:將文字翻譯成另一種語言,或對文字進行總結。
NLP 並不侷限於書面文字。它還處理語音識別和計算機視覺中的複雜挑戰,例如生成音訊樣本的轉錄文字或影像的描述。
大型語言模型(LLM)的興起
近年來,NLP 領域被大型語言模型(LLM)徹底改變。這些模型,包括像 GPT(Generative Pre-trained Transformer,生成式預訓練 Transformer)和 Llama 這樣的架構,已經改變了語言處理的可能性。
大型語言模型(LLM)是一種在海量文字資料上訓練的 AI 模型,它能夠理解和生成類似人類的文字、識別語言中的模式,並無需針對特定任務進行訓練即可執行各種語言任務。它們代表了自然語言處理(NLP)領域的重大進步。
LLM 的特點是:
- 規模:它們包含數百萬、數十億甚至數千億個引數。
- 通用能力:它們可以執行多種任務,而無需針對特定任務進行訓練。
- 上下文學習:它們可以從提示中提供的示例中學習。
- 湧現能力:隨著這些模型規模的增長,它們展示出未被明確程式設計或預期的能力。
LLM 的出現改變了以往為特定 NLP 任務構建專門模型的正規化,轉而使用一個單一的大型模型,透過提示或微調來處理廣泛的語言任務。這使得複雜的語言處理變得更加普及,同時也帶來了效率、倫理和部署等方面的新挑戰。
然而,LLM 也有重要的侷限性:
- 幻覺:它們可能會自信地生成不正確的資訊。
- 缺乏真正的理解:它們缺乏對世界的真正理解,純粹基於統計模式進行操作。
- 偏見:它們可能會復現其訓練資料或輸入中存在的偏見。
- 上下文視窗:它們的上下文視窗有限(儘管這一點正在改進)。
- 計算資源:它們需要大量的計算資源。
為什麼語言處理具有挑戰性?
計算機處理資訊的方式與人類不同。例如,當我們讀到“我餓了”這個句子時,我們能輕易理解它的意思。同樣,給定兩個句子,如“我餓了”和“我很難過”,我們能輕易判斷它們的相似程度。對於機器學習(ML)模型來說,這類任務要困難得多。文字需要經過處理,才能讓模型從中學習。由於語言的複雜性,我們需要仔細考慮如何進行這種處理。關於如何表示文字,已經有很多研究,我們將在下一章探討一些方法。
即使 LLM 取得了進步,許多根本性的挑戰依然存在。這些挑戰包括理解歧義、文化背景、諷刺和幽默。LLM 透過在多樣化的資料集上進行大規模訓練來應對這些挑戰,但在許多複雜場景中,它們仍然無法達到人類水平的理解能力。
< > 在 GitHub 上更新