加入 Hugging Face 社群
並獲得增強文件體驗
開始使用
簡介
在 第 3 章 中,你初步體驗了 🤗 Datasets 庫,並瞭解了微調模型時的三個主要步驟
- 從 Hugging Face Hub 載入資料集。
- 使用
Dataset.map()預處理資料。 - 載入和計算指標。
但這僅僅是 🤗 Datasets 功能的冰山一角!在本章中,我們將深入瞭解該庫。在此過程中,我們將找到以下問題的答案
- 如果你的資料集不在 Hub 上,該怎麼辦?
- 如何切分和整理資料集?(如果你真的需要使用 Pandas 該怎麼辦?)
- 如果你的資料集非常龐大,會耗盡筆記型電腦的 RAM,該怎麼辦?
- 什麼是“記憶體對映”和 Apache Arrow?
- 如何建立自己的資料集並將其推送到 Hub?
你在此處學習的技術將為你在 第 6 章 和 第 7 章 中進行的高階分詞和微調任務做好準備——所以,來杯咖啡,讓我們開始吧!