LLM 課程文件

使用您已標註的資料集

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

使用您已標註的資料集

Ask a Question Open In Colab Open In Studio Lab

現在我們將學習如何匯出和使用我們 Argilla 中已標註的資料。

載入資料集

首先,我們需要確保像之前步驟一樣,我們已經連線到 Argilla 例項。

import argilla as rg

HF_TOKEN = "..."  # only for private spaces

client = rg.Argilla(
    api_url="...",
    api_key="...",
    headers={"Authorization": f"Bearer {HF_TOKEN}"},  # only for private spaces
)

現在,我們將載入我們正在使用的資料集。

dataset = client.datasets(name="ag_news")

載入資料集並使用 `dataset.records` 呼叫其記錄足以開始將您的資料集和記錄用於您自己的目的和管道。然而,我們還將學習如何執行一些可選操作,例如過濾記錄和將資料集匯出到 Hugging Face Hub。

過濾資料集

有時您只想使用已完成的記錄,所以我們首先根據記錄的狀態來過濾資料集中的記錄。

status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))

filtered_records = dataset.records(status_filter)

⚠️ 請注意,`completed` 狀態的記錄(即滿足任務分發設定中配置的最小提交響應的記錄)可能包含多個響應,並且每個響應都可以具有 `submitted`、`draft` 或 `discarded` 中的任何狀態。

Argilla 文件中瞭解更多關於查詢和過濾記錄的資訊。

匯出到 Hub

我們現在可以將我們的標註匯出到 Hugging Face Hub,這樣我們就可以與他人分享。為此,我們需要將記錄轉換為 🤗 資料集,然後將其推送到 Hub

filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")

或者,我們可以像這樣直接匯出完整的 Argilla 資料集(包括待處理記錄)

dataset.to_hub(repo_id="argilla/ag_news_annotated")

如果其他人想在他們的 Argilla 例項中開啟資料集,這是一個有趣的選擇,因為設定會自動儲存,他們只需一行程式碼即可匯入完整的資料集。

dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")
< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.