LLM 課程文件
總結
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
總結
在本章中,你已經瞭解了 Transformer 模型、大語言模型(LLM)的基礎知識,以及它們如何徹底改變人工智慧及其他領域。
涵蓋的關鍵概念
自然語言處理與大語言模型
我們探討了什麼是 NLP 以及大語言模型如何改變了該領域。你學到了:
- NLP 涵蓋了從分類到生成的廣泛任務
- LLM 是在海量文字資料上訓練的強大模型
- 這些模型可以在單一架構內執行多項任務
- 儘管能力強大,但 LLM 也存在侷限性,包括幻覺和偏見
Transformer 模型的能力
你瞭解了 🤗 Transformers 的 pipeline()
函式如何讓你輕鬆使用預訓練模型來完成各種任務:
- 文字分類、詞元分類和問答
- 文字生成和摘要
- 翻譯和其他序列到序列任務
- 語音識別和影像分類
Transformer 模型架構
我們從宏觀層面討論了 Transformer 模型的工作原理,包括:
- 注意力機制的重要性
- 遷移學習如何使模型能夠適應特定任務
- 三種主要的架構變體:僅編碼器、僅解碼器和編碼器-解碼器
模型架構及其應用
本章的一個關鍵方面是理解如何為不同任務選擇合適的架構:
模型 | 示例 | 任務 |
---|---|---|
僅編碼器 | BERT, DistilBERT, ModernBERT | 句子分類、命名實體識別、抽取式問答 |
僅解碼器 | GPT, LLaMA, Gemma, SmolLM | 文字生成、對話式人工智慧、創意寫作 |
編碼器-解碼器 | BART, T5, Marian, mBART | 摘要、翻譯、生成式問答 |
現代 LLM 的發展
你還了解了該領域的最新進展:
- LLM 的規模和能力如何隨時間增長
- 縮放法則(Scaling laws)的概念及其如何指導模型開發
- 幫助模型處理更長序列的專門注意力機制
- 預訓練和指令微調的兩階段訓練方法
實際應用
在整個章節中,你已經看到了如何將這些模型應用於現實世界的問題:
- 使用 Hugging Face Hub 查詢和使用預訓練模型
- 利用推理 API 直接在瀏覽器中測試模型
- 瞭解哪些模型最適合特定任務
展望未來
現在你對 Transformer 模型是什麼以及它們在宏觀層面的工作原理有了紮實的理解,你已經準備好深入學習如何有效地使用它們。在接下來的章節中,你將學習如何:
- 使用 Transformers 庫載入和微調模型
- 處理不同型別的資料作為模型輸入
- 使預訓練模型適應你的特定任務
- 為實際應用部署模型
你在本章中建立的基礎將為你探索後續章節中更高階的主題和技術提供堅實的支援。
< > 在 GitHub 上更新