使用您已標註的資料集

現在我們將學習如何匯出和使用我們 Argilla 中已標註的資料。

載入資料集

首先，我們需要確保像之前步驟一樣，我們已經連線到 Argilla 例項。

import argilla as rg

HF_TOKEN = "..."  # only for private spaces

client = rg.Argilla(
    api_url="...",
    api_key="...",
    headers={"Authorization": f"Bearer {HF_TOKEN}"},  # only for private spaces
)

現在，我們將載入我們正在使用的資料集。

dataset = client.datasets(name="ag_news")

載入資料集並使用 `dataset.records` 呼叫其記錄足以開始將您的資料集和記錄用於您自己的目的和管道。然而，我們還將學習如何執行一些可選操作，例如過濾記錄和將資料集匯出到 Hugging Face Hub。

過濾資料集

有時您只想使用已完成的記錄，所以我們首先根據記錄的狀態來過濾資料集中的記錄。

status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))

filtered_records = dataset.records(status_filter)

⚠️ 請注意，`completed` 狀態的記錄（即滿足任務分發設定中配置的最小提交響應的記錄）可能包含多個響應，並且每個響應都可以具有 `submitted`、`draft` 或 `discarded` 中的任何狀態。

在 Argilla 文件中瞭解更多關於查詢和過濾記錄的資訊。

匯出到 Hub

我們現在可以將我們的標註匯出到 Hugging Face Hub，這樣我們就可以與他人分享。為此，我們需要將記錄轉換為 🤗 資料集，然後將其推送到 Hub

filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")

或者，我們可以像這樣直接匯出完整的 Argilla 資料集（包括待處理記錄）

dataset.to_hub(repo_id="argilla/ag_news_annotated")

如果其他人想在他們的 Argilla 例項中開啟資料集，這是一個有趣的選擇，因為設定會自動儲存，他們只需一行程式碼即可匯入完整的資料集。

dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")

< > 在 GitHub 上更新

LLM 課程

使用您已標註的資料集

載入資料集

過濾資料集

匯出到 Hub