資料集檢視器文件

Pandas

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Pandas

Pandas 是一個用於資料分析的流行 DataFrame 庫。

要從單個 Parquet 檔案讀取資料,請使用 read_parquet 函式將其讀取到 DataFrame 中。

import pandas as pd

df = (
    pd.read_parquet("https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet")
    .groupby('sign')['text']
    .apply(lambda x: x.str.len().mean())
    .sort_values(ascending=False)
    .head(5)
)

要讀取多個 Parquet 檔案(例如,如果資料集是分片的),您需要使用 concat 函式將這些檔案連線成一個 DataFrame。

urls = ["https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0000.parquet", "https://huggingface.co/datasets/tasksource/blog_authorship_corpus/resolve/refs%2Fconvert%2Fparquet/default/train/0001.parquet"]

df = (
      pd.concat([pd.read_parquet(url) for url in urls])
      .groupby('sign')['text']
      .apply(lambda x: x.str.len().mean())
      .sort_values(ascending=False)
      .head(5)
)
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.