加入 Hugging Face 社群
並獲取增強型文件體驗
開始使用
簡介
在 第 3 章 中,我們瞭解瞭如何在給定任務上微調模型。在這樣做時,我們使用了模型預訓練時使用的相同分詞器——但是當我們想要從頭開始訓練模型時該怎麼辦?在這些情況下,使用在另一個領域或語言的語料庫上預訓練的分詞器通常不是最佳選擇。例如,在英語語料庫上訓練的分詞器在日語文字語料庫上的表現會很差,因為這兩種語言中空格和標點的使用方式大不相同。
在本節中,您將學習如何在文字語料庫上訓練一個全新的分詞器,以便隨後將其用於預訓練語言模型。所有這些都將藉助 🤗 Tokenizers 庫完成,該庫提供了 🤗 Transformers 庫中的“快速”分詞器。我們將仔細研究此庫提供的功能,並探討快速分詞器與“慢速”版本有何不同。
我們將涵蓋以下主題
- 如何在新的文字語料庫上訓練一個類似於給定檢查點使用的分詞器
- 快速分詞器的特殊功能
- 當今 NLP 中使用的三種主要子詞分詞演算法之間的差異
- 如何使用 🤗 Tokenizers 庫從頭開始構建分詞器並在某些資料上對其進行訓練
本章介紹的技術將為您準備 第 7 章 中建立 Python 原始碼語言模型的部分。讓我們首先了解一下“訓練”分詞器本身意味著什麼。