簡介

在第 3 章中，我們探討了如何針對特定任務微調模型。在微調時，我們使用模型預訓練時使用的相同分詞器——但是當我們想從頭開始訓練模型時該怎麼辦呢？在這些情況下，使用在來自其他領域或語言的語料庫上預訓練的分詞器通常不是最佳選擇。例如，在英語語料庫上訓練的分詞器在日語文字語料庫上表現會很差，因為這兩種語言在空格和標點符號的使用上差異很大。

在本章中，您將學習如何在一個文字語料庫上訓練一個全新的分詞器，以便將其用於預訓練語言模型。這將透過🤗 Tokenizers庫來完成，該庫提供了🤗 Transformers庫中的“快速”分詞器。我們將仔細研究該庫提供的功能，並探討快速分詞器與“慢速”版本有何不同。

我們將涵蓋的主題包括：

如何在新的文字語料庫上訓練類似於給定檢查點使用的分詞器
快速分詞器的特殊功能
當今自然語言處理中使用的三種主要子詞分詞演算法之間的差異
如何使用 🤗 Tokenizers 庫從頭開始構建分詞器並在某些資料上進行訓練

本章介紹的技術將為您在第 7 章中探討為 Python 原始碼建立語言模型的部分做好準備。讓我們首先看看“訓練”分詞器到底意味著什麼。

< > 在 GitHub 上更新

LLM 課程

簡介