NLP 課程文件

簡介

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強文件體驗

開始使用

簡介

Ask a Question

第 3 章 中,你初步體驗了 🤗 Datasets 庫,並瞭解了微調模型時的三個主要步驟

  1. 從 Hugging Face Hub 載入資料集。
  2. 使用 Dataset.map() 預處理資料。
  3. 載入和計算指標。

但這僅僅是 🤗 Datasets 功能的冰山一角!在本章中,我們將深入瞭解該庫。在此過程中,我們將找到以下問題的答案

  • 如果你的資料集不在 Hub 上,該怎麼辦?
  • 如何切分和整理資料集?(如果你真的需要使用 Pandas 該怎麼辦?)
  • 如果你的資料集非常龐大,會耗盡筆記型電腦的 RAM,該怎麼辦?
  • 什麼是“記憶體對映”和 Apache Arrow?
  • 如何建立自己的資料集並將其推送到 Hub?

你在此處學習的技術將為你在 第 6 章第 7 章 中進行的高階分詞和微調任務做好準備——所以,來杯咖啡,讓我們開始吧!

© . This site is unofficial and not affiliated with Hugging Face, Inc.