Hub 文件
Polars
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
Polars
Polars 是一個基於 OLAP 查詢引擎的記憶體 DataFrame 庫。它速度快、易於使用,並且是開源的。
從 1.2.0
版本開始,Polars 為 Hugging Face 檔案系統提供了*原生*支援。這意味著 Polars 查詢最佳化器的所有優勢(例如,謂詞和投影下推)都會被應用,並且 Polars 只會載入完成查詢所必需的資料。這顯著加快了讀取速度,尤其是對於大型資料集(請參閱最佳化)。
您可以使用 Hugging Face 路徑(hf://
)來訪問 Hub 上的資料。

入門
要開始使用,您只需在您的環境中執行 pip install
Polars。
pip install polars
安裝 Polars 後,您可以直接根據 Hugging Face URL 查詢資料集。這不需要其他任何依賴項。
import polars as pl
pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")
Polars 提供了兩種 API:一種是惰性 API (scan_parquet
),另一種是即時 API (read_parquet
)。我們建議對互動式工作負載使用即時 API,而對效能要求高的場景使用惰性 API,因為它能實現更好的查詢最佳化。有關此主題的更多資訊,請檢視 Polars 使用者指南。
Polars 支援使用萬用字元將多個檔案一次性下載到一個 DataFrame 中。
pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-*.parquet")
Hugging Face URL
一個 Hugging Face URL 可以由 username
和 dataset
名稱這樣構建:
hf://datasets/{username}/{dataset}/{path_to_file}
路徑可以包含萬用字元模式,例如 **/*.parquet
,以查詢所有匹配該模式的檔案。此外,對於任何不被檔案格式支援的檔案,您可以使用 Hugging Face 提供的自動轉換後的 parquet 檔案,方法是使用 @~parquet 分支
。
hf://datasets/{my-username}/{my-dataset}@~parquet/{path_to_file}