分詞器
加入 Hugging Face 社群
並獲得增強的文件體驗
分詞器
為研究和生產而最佳化的、最先進的快速分詞器
🤗 Tokenizers 庫提供了當今最常用分詞器的實現,重點關注效能和通用性。這些分詞器也被用於 🤗 Transformers。
主要特點:
- 使用當今最常用的分詞器來訓練新詞彙表和進行分詞。
- 得益於 Rust 實現,速度極快(包括訓練和分詞)。在伺服器 CPU 上,對 1GB 的文字進行分詞耗時不到 20 秒。
- 易於使用,同時也極其通用。
- 專為研究和生產而設計。
- 完整的對齊跟蹤。即使進行了破壞性的規範化,也始終可以獲取到與任意詞元對應的原始句子部分。
- 完成所有預處理:截斷、填充、新增模型所需的特殊詞元。
< > 在 GitHub 上更新
© . This site is unofficial and not affiliated with Hugging Face, Inc.