LLM 課程文件

引言

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

簡介

Ask a Question

第3章中,您首次接觸了🤗 Datasets庫,並瞭解到微調模型主要有三個步驟:

  1. 從Hugging Face Hub載入資料集。
  2. 使用Dataset.map()預處理資料。
  3. 載入並計算指標。

但這只是🤗 Datasets功能的一小部分!在本章中,我們將深入探討該庫。在此過程中,我們將找到以下問題的答案:

  • 如果您的資料集不在Hub上,該怎麼辦?
  • 如何對資料集進行切片和切塊?(如果您確實需要使用Pandas,該怎麼辦?)
  • 當您的資料集非常龐大,會導致您的筆記型電腦RAM熔斷時,該怎麼辦?
  • “記憶體對映”和Apache Arrow到底是什麼?
  • 如何建立自己的資料集並將其推送到Hub?

您在此處學到的技術將為您在第6章第7章中進行高階分詞和微調任務做好準備——所以,泡杯咖啡,讓我們開始吧!

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.