LLM 課程文件

引言

LLM 課程

0. 環境配置

1. Transformer 模型

2. 使用 🤗 Transformers

3. 微調預訓練模型

4. 共享模型和分詞器

5. 🤗 Datasets 庫

簡介如果我的資料集不在Hub上怎麼辦？是時候切片和切丁了大資料？🤗 Datasets來幫忙！建立自己的資料集使用FAISS進行語義搜尋 🤗 Datasets，搞定！章節末測驗

6. 🤗 Tokenizers 庫

7. 經典的 NLP 任務

8. 如何尋求幫助

9. 構建和共享演示

10. 策劃高質量資料集

11. 微調大型語言模型

12. 構建推理模型新

課程活動

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

簡介

在第3章中，您首次接觸了🤗 Datasets庫，並瞭解到微調模型主要有三個步驟：

從Hugging Face Hub載入資料集。
使用Dataset.map()預處理資料。
載入並計算指標。

但這只是🤗 Datasets功能的一小部分！在本章中，我們將深入探討該庫。在此過程中，我們將找到以下問題的答案：

如果您的資料集不在Hub上，該怎麼辦？
如何對資料集進行切片和切塊？（如果您確實需要使用Pandas，該怎麼辦？）
當您的資料集非常龐大，會導致您的筆記型電腦RAM熔斷時，該怎麼辦？
“記憶體對映”和Apache Arrow到底是什麼？
如何建立自己的資料集並將其推送到Hub？

您在此處學到的技術將為您在第6章和第7章中進行高階分詞和微調任務做好準備——所以，泡杯咖啡，讓我們開始吧！

< > 在 GitHub 上更新

←章節末測驗如果我的資料集不在Hub上怎麼辦？→

© . This site is unofficial and not affiliated with Hugging Face, Inc.