LLM 課程文件
引言
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
簡介
在第3章中,您首次接觸了🤗 Datasets庫,並瞭解到微調模型主要有三個步驟:
- 從Hugging Face Hub載入資料集。
- 使用
Dataset.map()
預處理資料。 - 載入並計算指標。
但這只是🤗 Datasets功能的一小部分!在本章中,我們將深入探討該庫。在此過程中,我們將找到以下問題的答案:
- 如果您的資料集不在Hub上,該怎麼辦?
- 如何對資料集進行切片和切塊?(如果您確實需要使用Pandas,該怎麼辦?)
- 當您的資料集非常龐大,會導致您的筆記型電腦RAM熔斷時,該怎麼辦?
- “記憶體對映”和Apache Arrow到底是什麼?
- 如何建立自己的資料集並將其推送到Hub?
您在此處學到的技術將為您在第6章和第7章中進行高階分詞和微調任務做好準備——所以,泡杯咖啡,讓我們開始吧!
< > 在 GitHub 上更新