NLP 課程文件

簡介

NLP 課程

0. 設定

1. Transformer 模型

2. 使用 🤗 Transformers

3. 微調預訓練模型

4. 共享模型和分詞器

5. 🤗 Datasets 庫

簡介如果我的資料集不在 Hub 上怎麼辦？是時候切分和整理資料了大資料？ 🤗 Datasets 來幫忙！建立自己的資料集使用 FAISS 進行語義搜尋 🤗 Datasets，搞定！章節末測試

6. 🤗 Tokenizers 庫

7. 主要 NLP 任務

8. 如何尋求幫助

9. 構建和共享演示新增

課程活動

加入 Hugging Face 社群

並獲得增強文件體驗

協作模型、資料集和空間

使用加速推理更快地執行示例

在文件主題之間切換

開始使用

簡介

在第 3 章中，你初步體驗了 🤗 Datasets 庫，並瞭解了微調模型時的三個主要步驟

從 Hugging Face Hub 載入資料集。
使用 Dataset.map() 預處理資料。
載入和計算指標。

但這僅僅是 🤗 Datasets 功能的冰山一角！在本章中，我們將深入瞭解該庫。在此過程中，我們將找到以下問題的答案

如果你的資料集不在 Hub 上，該怎麼辦？
如何切分和整理資料集？（如果你真的需要使用 Pandas 該怎麼辦？）
如果你的資料集非常龐大，會耗盡筆記型電腦的 RAM，該怎麼辦？
什麼是“記憶體對映”和 Apache Arrow？
如何建立自己的資料集並將其推送到 Hub？

你在此處學習的技術將為你在第 6 章和第 7 章中進行的高階分詞和微調任務做好準備——所以，來杯咖啡，讓我們開始吧！

←章節末測試如果我的資料集不在 Hub 上怎麼辦？→

© . This site is unofficial and not affiliated with Hugging Face, Inc.