Hub 文件

Argilla

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Argilla

Argilla 是一款面向 AI 工程師和領域專家的協作工具,他們需要為自己的專案構建高質量的資料集。

image

Argilla 可用於為各種 AI 專案收集人類反饋,如傳統 NLP(文字分類、命名實體識別等)、LLMs(RAG、偏好調優等)或多模態模型(文字到影像等)。Argilla 的程式設計方法讓您可以構建持續評估和模型改進的工作流。Argilla 的目標是透過快速迭代正確的資料和模型,確保您的資料工作取得成效。

人們用 Argilla 構建什麼?

社群使用 Argilla 建立了出色的開源資料集模型

開源資料集和模型

Argilla 也為開源社群貢獻了一些模型和資料集。

  • 清理後的 UltraFeedback 資料集,用於微調 NotusNotux 模型。原始的 UltraFeedback 資料集使用 Argilla UI 過濾器進行整理,以發現並報告原始資料生成程式碼中的錯誤。基於此資料整理過程,Argilla 構建了這個新版本的 UltraFeedback 資料集並微調了 Notus,在多個基準測試中超越了 Zephyr。
  • distilabeled Intel Orca DPO 資料集,用於微調改進後的 OpenHermes 模型。該資料集透過將 Argilla 中的人工整理與 distilabel 的 AI 反饋相結合構建而成,從而產生了 Intel Orca 資料集的改進版本,並超越了在原始資料集上微調的模型。

用例示例

來自紅十字會Loris.aiProlific 等公司的 AI 團隊使用 Argilla 來提高 AI 專案的質量和效率。他們在我們的 AI 社群聚會中分享了他們的經驗。

  • AI for good (AI向善):紅十字會的演示展示了紅十字會領域專家和 AI 團隊如何透過分類和重定向烏克蘭危機難民的請求進行協作,以簡化紅十字會的支援流程。
  • 客戶支援:在 Loris 聚會期間,他們展示了其 AI 團隊如何使用無監督和少樣本對比學習來幫助他們快速驗證併為大量多標籤分類器獲取標註樣本。
  • 研究:Prolific 的展示宣佈了他們與我們平臺的整合。他們用它來積極地在其標註人員中分發資料收集專案。這使得 Prolific 能夠快速高效地為研究收集高質量資料。

先決條件

首先使用您的 Hugging Face 帳戶登入

hf auth login

確保你已安裝 argilla>=2.0.0

pip install -U argilla

最後,您需要部署 Argilla 伺服器和 UI,這可以輕鬆地在 Hugging Face Hub 上完成

匯入和匯出資料集與記錄

本指南介紹如何將您的資料集匯入和匯出到 Hugging Face Hub。

在 Argilla 中,您可以匯入/匯出資料集的兩個主要組成部分:

  • 在 `rg.Settings` 中定義的完整資料集配置。如果您想分享您的反饋任務或稍後在 Argilla 中恢復它,這將非常有用。
  • 儲存在資料集中的記錄,包括 `Metadata`(元資料)、`Vectors`(向量)、`Suggestions`(建議)和 `Responses`(響應)。如果您想在 Argilla 之外使用資料集的記錄,這將非常有用。

將 Argilla 資料集推送到 Hugging Face Hub

您可以將 Argilla 中的資料集推送到 Hugging Face Hub。如果您想與社群共享資料集或進行版本控制,這將非常有用。您可以使用 `rg.Dataset.to_hub` 方法將資料集推送到 Hugging Face Hub。

import argilla as rg

client = rg.Argilla(api_url="<api_url>", api_key="<api_key>")
dataset = client.datasets(name="my_dataset")
dataset.to_hub(repo_id="<repo_id>")

帶或不帶記錄

上面的示例會將資料集的 `Settings` 和記錄推送到 Hub。如果您只想推送資料集的配置,可以將 `with_records` 引數設定為 `False`。如果您只對特定的資料集模板感興趣,或者想要更改資料集設定和/或記錄,這將非常有用。

dataset.to_hub(repo_id="<repo_id>", with_records=False)

從 Hugging Face Hub 拉取 Argilla 資料集

您可以將資料集從 Hugging Face Hub 拉取到 Argilla。如果您想恢復資料集及其配置,這將非常有用。您可以使用 `rg.Dataset.from_hub` 方法從 Hugging Face Hub 拉取資料集。


import argilla as rg

client = rg.Argilla(api_url="<api_url>", api_key="<api_key>")
dataset = rg.Dataset.from_hub(repo_id="<repo_id>")

`rg.Dataset.from_hub` 方法會從資料集倉庫載入配置和記錄。如果您只想載入記錄,可以將 `datasets.Dataset` 物件傳遞給 `rg.Dataset.log` 方法。這使您能夠配置自己的資料集並重用現有的 Hub 資料集。

帶或不帶記錄

上面的示例將從 Hub 中拉取資料集的 `Settings` 和記錄。如果您只想拉取資料集的配置,可以將 `with_records` 引數設定為 `False`。如果您只對特定的資料集模板感興趣,或者想要更改資料集設定和/或記錄,這將非常有用。

dataset = rg.Dataset.from_hub(repo_id="<repo_id>", with_records=False)

有了資料集的配置,您就可以對資料集進行更改。例如,您可以為不同的任務調整資料集的設定。

dataset.settings.questions = [rg.TextQuestion(name="answer")]

然後,您可以使用 `datasets` 包的 `load_dataset` 方法記錄資料集的記錄,並將資料集傳遞給 `rg.Dataset.log` 方法。

hf_dataset = load_dataset("<repo_id>")
dataset.log(hf_dataset)

📚 資源

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.