Hub 文件

Polars

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Polars

Polars 是一個基於 OLAP 查詢引擎的記憶體 DataFrame 庫。它速度快、易於使用,並且是開源的。

1.2.0 版本開始,Polars 為 Hugging Face 檔案系統提供了*原生*支援。這意味著 Polars 查詢最佳化器的所有優勢(例如,謂詞和投影下推)都會被應用,並且 Polars 只會載入完成查詢所必需的資料。這顯著加快了讀取速度,尤其是對於大型資料集(請參閱最佳化)。

您可以使用 Hugging Face 路徑(hf://)來訪問 Hub 上的資料。

入門

要開始使用,您只需在您的環境中執行 pip install Polars。

pip install polars

安裝 Polars 後,您可以直接根據 Hugging Face URL 查詢資料集。這不需要其他任何依賴項。

import polars as pl

pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-00000-of-00004-2d5a1467fff1081b.parquet")

Polars 提供了兩種 API:一種是惰性 API (scan_parquet),另一種是即時 API (read_parquet)。我們建議對互動式工作負載使用即時 API,而對效能要求高的場景使用惰性 API,因為它能實現更好的查詢最佳化。有關此主題的更多資訊,請檢視 Polars 使用者指南

Polars 支援使用萬用字元將多個檔案一次性下載到一個 DataFrame 中。

pl.read_parquet("hf://datasets/roneneldan/TinyStories/data/train-*.parquet")

Hugging Face URL

一個 Hugging Face URL 可以由 usernamedataset 名稱這樣構建:

  • hf://datasets/{username}/{dataset}/{path_to_file}

路徑可以包含萬用字元模式,例如 **/*.parquet,以查詢所有匹配該模式的檔案。此外,對於任何不被檔案格式支援的檔案,您可以使用 Hugging Face 提供的自動轉換後的 parquet 檔案,方法是使用 @~parquet 分支

  • hf://datasets/{my-username}/{my-dataset}@~parquet/{path_to_file}
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.