分詞器文件

安裝

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

安裝

Python
Rust
Node

🤗 Tokenizers 已在 Python 3.5+ 上測試透過。

您應該在虛擬環境中安裝 🤗 Tokenizers。如果您不熟悉 Python 虛擬環境,請檢視使用者指南。使用您要使用的 Python 版本建立一個虛擬環境並激活它。

使用 pip 安裝

🤗 Tokenizers 可以使用 pip 安裝,如下所示:

pip install tokenizers

從原始碼安裝

要使用此方法,您需要安裝 Rust 語言。您可以參考官方指南獲取更多資訊。

如果您使用的是基於 Unix 的作業系統,安裝過程應該像執行以下命令一樣簡單:

curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh

或者您可以用以下命令輕鬆更新它:

rustup update

Rust 安裝後,我們就可以開始獲取 🤗 Tokenizers 的原始碼了

git clone https://github.com/huggingface/tokenizers

然後我們進入 Python 繫結的資料夾

cd tokenizers/bindings/python

此時,您應該已經激活了您的虛擬環境。為了編譯 🤗 Tokenizers,您需要

pip install -e .
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.