資料集檢視器文件
概覽
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
概述
資料集檢視器自動將 Hub 上小於 5GB 的公共資料集轉換為 Parquet 檔案併發布。如果資料集已經是 Parquet 格式,則會按原樣釋出。Parquet 檔案是列式儲存的,當處理大資料時,它們表現出色。
對於私有資料集,如果儲存庫由專業使用者或企業 Hub 組織擁有,則提供該功能。
有幾種不同的庫可用於處理已釋出的 Parquet 檔案
- ClickHouse,一個用於線上分析處理的列式資料庫管理系統
- cuDF,一個 Python GPU DataFrame 庫
- DuckDB,一個用於分析查詢的高效能 SQL 資料庫
- Pandas,一個用於處理資料結構的資料分析工具
- Polars,一個基於 Rust 的 DataFrame 庫
- PostgreSQL via pgai,一個功能強大的開源物件關係資料庫系統
- mlcroissant,一個用於從 Croissant 元資料載入資料集的庫
- pyspark,Apache Spark 的 Python API