分詞器文件

分詞器

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

分詞器

為研究和生產而最佳化的、最先進的快速分詞器

🤗 Tokenizers 庫提供了當今最常用分詞器的實現,重點關注效能和通用性。這些分詞器也被用於 🤗 Transformers

主要特點:

  • 使用當今最常用的分詞器來訓練新詞彙表和進行分詞。
  • 得益於 Rust 實現,速度極快(包括訓練和分詞)。在伺服器 CPU 上,對 1GB 的文字進行分詞耗時不到 20 秒。
  • 易於使用,同時也極其通用。
  • 專為研究和生產而設計。
  • 完整的對齊跟蹤。即使進行了破壞性的規範化,也始終可以獲取到與任意詞元對應的原始句子部分。
  • 完成所有預處理:截斷、填充、新增模型所需的特殊詞元。
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.