LLM 課程文件
使用您已標註的資料集
加入 Hugging Face 社群
並獲得增強的文件體驗
開始使用
使用您已標註的資料集
現在我們將學習如何匯出和使用我們 Argilla 中已標註的資料。
載入資料集
首先,我們需要確保像之前步驟一樣,我們已經連線到 Argilla 例項。
import argilla as rg
HF_TOKEN = "..." # only for private spaces
client = rg.Argilla(
api_url="...",
api_key="...",
headers={"Authorization": f"Bearer {HF_TOKEN}"}, # only for private spaces
)
現在,我們將載入我們正在使用的資料集。
dataset = client.datasets(name="ag_news")
載入資料集並使用 `dataset.records` 呼叫其記錄足以開始將您的資料集和記錄用於您自己的目的和管道。然而,我們還將學習如何執行一些可選操作,例如過濾記錄和將資料集匯出到 Hugging Face Hub。
過濾資料集
有時您只想使用已完成的記錄,所以我們首先根據記錄的狀態來過濾資料集中的記錄。
status_filter = rg.Query(filter=rg.Filter([("status", "==", "completed")]))
filtered_records = dataset.records(status_filter)
⚠️ 請注意,`completed` 狀態的記錄(即滿足任務分發設定中配置的最小提交響應的記錄)可能包含多個響應,並且每個響應都可以具有 `submitted`、`draft` 或 `discarded` 中的任何狀態。
在 Argilla 文件中瞭解更多關於查詢和過濾記錄的資訊。
匯出到 Hub
我們現在可以將我們的標註匯出到 Hugging Face Hub,這樣我們就可以與他人分享。為此,我們需要將記錄轉換為 🤗 資料集,然後將其推送到 Hub
filtered_records.to_datasets().push_to_hub("argilla/ag_news_annotated")
或者,我們可以像這樣直接匯出完整的 Argilla 資料集(包括待處理記錄)
dataset.to_hub(repo_id="argilla/ag_news_annotated")
如果其他人想在他們的 Argilla 例項中開啟資料集,這是一個有趣的選擇,因為設定會自動儲存,他們只需一行程式碼即可匯入完整的資料集。
dataset = rg.Dataset.from_hub(repo_id="argilla/ag_news_annotated")