分詞器文件
安裝
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
安裝
Python
Rust
Node
🤗 Tokenizers 已在 Python 3.5+ 上測試透過。
您應該在虛擬環境中安裝 🤗 Tokenizers。如果您不熟悉 Python 虛擬環境,請檢視使用者指南。使用您要使用的 Python 版本建立一個虛擬環境並激活它。
使用 pip 安裝
🤗 Tokenizers 可以使用 pip 安裝,如下所示:
pip install tokenizers
從原始碼安裝
要使用此方法,您需要安裝 Rust 語言。您可以參考官方指南獲取更多資訊。
如果您使用的是基於 Unix 的作業系統,安裝過程應該像執行以下命令一樣簡單:
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
或者您可以用以下命令輕鬆更新它:
rustup update
Rust 安裝後,我們就可以開始獲取 🤗 Tokenizers 的原始碼了
git clone https://github.com/huggingface/tokenizers
然後我們進入 Python 繫結的資料夾
cd tokenizers/bindings/python
此時,您應該已經激活了您的虛擬環境。為了編譯 🤗 Tokenizers,您需要
pip install -e .