資料集檢視器文件

概覽

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

概述

資料集檢視器自動將 Hub 上小於 5GB 的公共資料集轉換為 Parquet 檔案併發布。如果資料集已經是 Parquet 格式,則會按原樣釋出。Parquet 檔案是列式儲存的,當處理大資料時,它們表現出色。

對於私有資料集,如果儲存庫由專業使用者企業 Hub 組織擁有,則提供該功能。

有幾種不同的庫可用於處理已釋出的 Parquet 檔案

  • ClickHouse,一個用於線上分析處理的列式資料庫管理系統
  • cuDF,一個 Python GPU DataFrame 庫
  • DuckDB,一個用於分析查詢的高效能 SQL 資料庫
  • Pandas,一個用於處理資料結構的資料分析工具
  • Polars,一個基於 Rust 的 DataFrame 庫
  • PostgreSQL via pgai,一個功能強大的開源物件關係資料庫系統
  • mlcroissant,一個用於從 Croissant 元資料載入資料集的庫
  • pyspark,Apache Spark 的 Python API
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.