資料集檢視器文件
cuDF
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
cuDF
cuDF 是一個 Python GPU DataFrame 庫。
要從單個 Parquet 檔案中讀取資料,請使用 read_parquet
函式將其讀入 DataFrame
import cudf
df = (
cudf.read_parquet("https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet")
.groupby('sign')['text']
.apply(lambda x: x.str.len().mean())
.sort_values(ascending=False)
.head(5)
)
要讀取多個 Parquet 檔案——例如,如果資料集已分片——您需要使用 dask-cudf
import dask
import dask.dataframe as dd
dask.config.set({"dataframe.backend": "cudf"})
df = (
dd.read_parquet("https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/*.parquet")
)