LLM 課程文件

引言

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

引言

Ask a Question

歡迎來到 🤗 課程!

本課程將教您如何使用 Hugging Face 生態系統中的庫——Hugging Face 生態系統——🤗 Transformers🤗 Datasets🤗 Tokenizers🤗 Accelerate——以及 Hugging Face Hub 來進行大型語言模型 (LLM) 和自然語言處理 (NLP)。

我們還將介紹 Hugging Face 生態系統之外的庫。它們是 AI 社群的傑出貢獻,也是極其有用的工具。

完全免費,無廣告。

理解 NLP 和 LLM

雖然本課程最初專注於 NLP(自然語言處理),但現已發展為側重於大型語言模型 (LLM),它們代表了該領域的最新進展。

有什麼區別?

  • NLP(自然語言處理) 是一個更廣泛的領域,專注於使計算機能夠理解、解釋和生成人類語言。NLP 包含許多技術和任務,例如情感分析、命名實體識別和機器翻譯。
  • LLM(大型語言模型) 是 NLP 模型的一個強大子集,其特點是規模巨大、訓練資料廣泛,並且能夠以極少的特定任務訓練來執行各種語言任務。像 Llama、GPT 或 Claude 系列這樣的模型是 LLM 的例子,它們徹底改變了 NLP 的可能性。

在本課程中,您將學習傳統的 NLP 概念和前沿的 LLM 技術,因為理解 NLP 的基礎對於有效使用 LLM 至關重要。

課程內容概覽

以下是本課程的簡要概述

Brief overview of the chapters of the course.
  • 第 1-4 章將介紹 🤗 Transformers 庫的主要概念。在本課程結束時,您將熟悉 Transformer 模型的工作原理,並知道如何使用 Hugging Face Hub 上的模型、在資料集上對其進行微調,並將您的結果分享到 Hub!
  • 第 5-8 章將介紹 🤗 Datasets 和 🤗 Tokenizers 的基礎知識,然後深入研究經典的 NLP 任務和 LLM 技術。在本部分結束時,您將能夠獨立處理最常見的語言處理挑戰。
  • 第 9 章將超越 NLP,介紹如何在 🤗 Hub 上構建和共享模型的演示。在本部分結束時,您將準備好向全世界展示您的 🤗 Transformers 應用程式!
  • 第 10-12 章將深入探討高階 LLM 主題,例如微調、策劃高質量資料集和構建推理模型。

本課程

  • 需要良好的 Python 知識
  • 最好在完成入門級深度學習課程後學習,例如 fast.ai 的《fast.ai’s 面向編碼人員的實踐深度學習》或 DeepLearning.AI 開發的課程之一。
  • 不期望具備 PyTorch 或 TensorFlow 的先驗知識,儘管熟悉其中任何一種都會有所幫助。

完成本課程後,我們建議您檢視 DeepLearning.AI 的《自然語言處理專業課程》,該課程涵蓋了各種經典的 NLP 模型,如樸素貝葉斯和 LSTM,這些都是非常值得了解的!

關於我們

關於作者

Abubakar Abid 在斯坦福大學完成了應用機器學習博士學位。在攻讀博士學位期間,他創辦了 Gradio,這是一個開源 Python 庫,已被用於構建超過 60 萬個機器學習演示。Gradio 被 Hugging Face 收購,Abubakar 現在是 Hugging Face 的機器學習團隊負責人。

Ben Burtenshaw 是 Hugging Face 的一名機器學習工程師。他在安特衛普大學獲得了自然語言處理博士學位,期間他將 Transformer 模型應用於兒童故事的生成,以提高識字能力。此後,他一直致力於為更廣泛的社群提供教育材料和工具。

Matthew Carrigan 是 Hugging Face 的一名機器學習工程師。他住在愛爾蘭都柏林,此前曾在 Parse.ly 擔任 ML 工程師,在此之前,他曾在都柏林三一學院擔任博士後研究員。他不認為透過擴大現有架構就能實現 AGI,但他對機器人永生仍抱有很高的期望。

Lysandre Debut 是 Hugging Face 的一名機器學習工程師,自 🤗 Transformers 庫早期開發階段就一直在參與其中。他的目標是透過開發具有非常簡單 API 的工具,讓 NLP 對每個人都可訪問。

Sylvain Gugger 是 Hugging Face 的一名研究工程師,也是 🤗 Transformers 庫的核心維護者之一。他曾是 fast.ai 的研究科學家,並與 Jeremy Howard 合著了《Deep Learning for Coders with fastai and PyTorch》。他的主要研究重點是使深度學習更易於訪問,透過設計和改進技術,使模型能夠在有限的資源上快速訓練。

Dawood Khan 是 Hugging Face 的一名機器學習工程師。他來自紐約,畢業於紐約大學計算機科學專業。在擔任了幾年 iOS 工程師後,Dawood 辭職與他的聯合創始人一起創辦了 Gradio。Gradio 後來被 Hugging Face 收購。

Merve Noyan 是 Hugging Face 的一名開發者佈道師,致力於開發工具和圍繞這些工具的內容,以實現機器學習的民主化,讓每個人都能接觸到。

Lucile Saulnier 是 Hugging Face 的一名機器學習工程師,負責開發和支援開源工具的使用。她還積極參與自然語言處理領域的許多研究專案,例如協作訓練和 BigScience。

Lewis Tunstall 是 Hugging Face 的一名機器學習工程師,專注於開發開源工具,並使其為更廣泛的社群所用。他還是 O’Reilly 圖書《Transformer 自然語言處理》的合著者。

Leandro von Werra 是 Hugging Face 開源團隊的一名機器學習工程師,也是 O’Reilly 圖書《Transformer 自然語言處理》的合著者。他擁有多年的行業經驗,透過處理整個機器學習堆疊將 NLP 專案投入生產。

常見問題

以下是一些常見問題的解答

  • 參加本課程是否會獲得認證? 目前我們不提供本課程的認證。但是,我們正在為 Hugging Face 生態系統開發一個認證計劃——敬請期待!

  • 我應該在這門課程上花費多少時間? 本課程的每一章都設計為在一週內完成,每週大約需要 6-8 小時的工作量。但是,您可以根據自己的需要完成課程。

  • 如果我有問題,可以在哪裡提問? 如果您對課程的任何部分有疑問,只需點選頁面頂部的“提問”橫幅,即可自動跳轉到 Hugging Face 論壇的相應部分。

Link to the Hugging Face forums

請注意,論壇上還提供了一系列專案想法,如果您想在完成課程後進行更多練習,可以在此找到。

  • 哪裡可以找到課程程式碼? 對於每個部分,點選頁面頂部的橫幅即可在 Google Colab 或 Amazon SageMaker Studio Lab 中執行程式碼。
Link to the Hugging Face course notebooks

包含本課程所有程式碼的 Jupyter notebook 託管在 huggingface/notebooks 倉庫中。如果您想在本地生成它們,請檢視 GitHub 上的 course 倉庫中的說明。

  • 我如何為課程做出貢獻? 您可以透過多種方式為課程做出貢獻!如果您發現拼寫錯誤或錯誤,請在 course 倉庫上開啟一個 issue。如果您想幫助將課程翻譯成您的母語,請在此處檢視說明:here

  • 每個翻譯都做出了哪些選擇? 每個翻譯都有一個詞彙表和 TRANSLATING.txt 檔案,其中詳細說明了為機器學習術語等所做的選擇。您可以在此處找到德語翻譯的示例:here

  • 我可以使用這門課程嗎? 當然!本課程根據寬鬆的 Apache 2 許可證釋出。這意味著您必須提供適當的署名,提供許可證連結,並註明是否進行了修改。您可以以任何合理的方式這樣做,但不能以暗示許可方認可您或您的使用的方式。如果您想引用本課程,請使用以下 BibTeX:
@misc{huggingfacecourse,
  author = {Hugging Face},
  title = {The Hugging Face Course, 2022},
  howpublished = "\url{https://huggingface.co/course}",
  year = {2022},
  note = "[Online; accessed <today>]"
}

語言與翻譯

感謝我們出色的社群,本課程有多種英語以外的語言版本 🔥!請查看下錶,瞭解哪些語言可用以及誰為翻譯做出了貢獻

語言 作者
法語 @lbourdois@ChainYo@melaniedrevet@abdouaziz
越南語 @honghanhh
中文(簡體) @zhlhyxpetrichor1122@yaoqih
孟加拉語 (開發中) @avishek-018@eNipu
德語 (開發中) @JesperDramsch@MarcusFra@fabridamicelli
西班牙語 (開發中) @camartinezbu@munozariasjm@fordaz
波斯語 (開發中) @jowharshamshiri@schoobani
古吉拉特語 (開發中) @pandyaved98
希伯來語 (開發中) @omer-dor
印地語 (開發中) @pandyaved98
印度尼西亞語 (開發中) @gstdl
義大利語 (開發中) @CaterinaBi@ClonedOne@Nolanogenn@EdAbati@gdacciaro
日語 (開發中) @hiromu166@younesbelkada@HiromuHota
韓語 (開發中) @Doohae@wonhyeongseo@dlfrnaos19
葡萄牙語 (開發中) @johnnv1@victorescosta@LincolnVS
俄語 (開發中) @pdumin@svv73
泰語 (開發中) @peeraponw@a-krirk@jomariya23156@ckingkan
土耳其語 (開發中) @tanersekmen@mertbozkir@ftarlaci@akkasayaz
中文(繁體) (開發中) @davidpeng86

對於某些語言,YouTube 頻道課程影片提供該語言的字幕。您可以透過先點選影片右下角的CC按鈕來啟用它們。然後,在設定圖示 ⚙️ 下,您可以選擇“字幕/CC”選項來選擇您想要的語言。

Activating subtitles for the Hugging Face course YouTube videos

在以上表格中未找到您的語言,或者您想為現有翻譯做貢獻?您可以透過遵循此處的說明幫助我們翻譯課程。

出發吧 🚀

準備好了嗎?在本章中,您將學習

  • 如何使用 pipeline() 函式來解決文字生成和分類等 NLP 任務
  • Transformer 架構
  • 如何區分編碼器、解碼器和編碼器-解碼器架構及其用例
在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.