資料集檢視器

cuDF

cuDF 是一個 Python GPU DataFrame 庫。

要從單個 Parquet 檔案中讀取資料，請使用 read_parquet 函式將其讀入 DataFrame

import cudf

df = (
    cudf.read_parquet("https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet")
    .groupby('sign')['text']
    .apply(lambda x: x.str.len().mean())
    .sort_values(ascending=False)
    .head(5)
)

要讀取多個 Parquet 檔案——例如，如果資料集已分片——您需要使用 dask-cudf

import dask
import dask.dataframe as dd

dask.config.set({"dataframe.backend": "cudf"})

df = (
    dd.read_parquet("https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/*.parquet")
)

< > 在 GitHub 上更新