🔥 Argilla 2.0:面向 AI 創作者的資料中心工具 🤗
自從加入 Hugging Face 以來,我們一直努力釋出 Argilla 2.0。今天它釋出了,這是一個重要的里程碑。
資料質量決定了 AI 的成敗,而 Argilla 2.0 是面向 AI 創作者的資料中心工具。
2.0 最激動人心的方面是協作與社群。只需點選幾下,您就可以將您的標註任務向整個 Hugging Face 社群開放。此外,您還可以設定自動任務分配,併為每個任務設定最少使用者響應數,以控制資料質量並在創紀錄的時間內完成專案!
但本文並非關於新功能,本文是為那些還不瞭解 Argilla 的人而寫的!
什麼是 Argilla?
一個免費且開源的 AI 資料構建與迭代工具。
為什麼選擇 Argilla?
高質量的資料對於 AI 而言至關重要。
資料能使模型實現從通用到特定,從大型到小型,從普通到獨一無二,從無用到有用,從有害到安全,從平庸到卓越,從別人的模型到你的模型,從概念驗證到投入生產!
為誰而設?
為所有人!
Argilla 旨在促進 AI 構建者和知識專家之間的協作
- AI 構建者可以使用 Argilla,並利用他們喜歡的工具實現自動化。他們可以輕鬆地將資料和模型輸出提供給專家。
- 知識專家可以貢獻他們的專業知識,對 AI 系統產生影響。
每個人都應該為 AI 做出貢獻!沒有人應該被工程概念嚇倒。關鍵在於促進協作,讓資料工作更愉快。關鍵在於充分利用每個人的時間、技能和知識。
用來做什麼?
迭代地、持續地思考、構建、評估和改進具有正確資料的 AI 系統!
Argilla 有何不同?
瀑布式軟體開發行不通,那麼為什麼瀑布式 AI 開發就行得通呢?大多數標註工具和服務仍然採用這種方式:AI/業務/專家團隊定義需求,他們從標註員那裡收集資料,花費大量資金,訓練模型,然後意識到需要回到起點 A,導致更多需求,更多標註資金,更多模型和超引數調優等。
這個過程效率低下,原因如下:
- AI 和業務團隊無法真正協作來決定 AI 模型的成敗:資料!
- 這是計算資源的浪費,但更重要的是,這是人類腦力的浪費!隨著 AI 模型變得越來越強大,只有專家才能真正貢獻力量來評估、塑造和改進其輸出。您無法透過要求專家編寫需求文件或使用為重複資料標註設計的標註 UI 來實現這一點。讓他們利用自己的知識進行探索、查詢和修復問題。
- AI 團隊需要快速失敗才能儘早部署。如果 AI 團隊無法及早獲得人工(專家)反饋,預算就會耗盡,專案就無法離開概念驗證階段。
Argilla 如何改變這一切?
一個強大的 SDK,用於設定專案和資料集。無論處於哪個開發階段,AI 團隊都可以從構思到部署後收集人工反饋!
import argilla as rg
from datasets import load_dataset
# Argilla datasets are configured with questions for your annotators and data fields
settings = rg.Settings(
fields=[
rg.TextField(name="review"),
],
questions=[
rg.LabelQuestion(
name="sentiment",
title="In which category does this article fit?",
labels=["positive", "negative"],
)
]
)
dataset = rg.Dataset(
name="my_first_dataset",
settings=settings,
client=client,
workspace="argilla"
)
# create dataset in Argilla
dataset.create()
# read a dataset from the Hub, add its rows to your dataset
hf_dataset = load_dataset("imdb", split="train[:100]").to_list()
dataset.records.log(records=hf_dataset, mapping={"text": "review"})
不再是一刀切的方案。不再只有用於文字/影像分類、命名實體識別(NER)或監督微調的資料集。每個專案都不同,您希望向專家提出正確的問題,而不是單個模型所期望的問題。為什麼不一次性收集命名實體識別、文字分類和文字生成的資料呢!
一種探索-查詢-標註方法。反覆被問到重複的問題或突出相同的問題,這是浪費專家時間的好方法。在 Argilla 中,您要求專家利用他們的知識,而不是逐個標註固定的 1000 個示例。
與 Hugging Face Hub 緊密整合,意味著您可以在 5 分鐘內啟動並執行。它將資料工作與模型、資料集管理和龐大的社群更緊密地結合在一起。
例如,Argilla 資料集可以在 Hub 中共享和匯入。
import argilla as rg
client = rg.Argilla(api_url="<api_url>", api_key="<api_key>")
# retrieve your dataset from Argilla
dataset = client.datasets(name="my_dataset")
# export to Hub
dataset.to_hub(
repo_id="<my_org>/<my_dataset>",
with_records=True,
generate_card=True
)
# import from hub
dataset = rg.Dataset.from_hub(repo_id="<my_org>/<my_dataset>")
但最令人興奮的整合是:您只需點選兩下,即可部署 Argilla 並向整個社群開放您的標註任務!
別相信我的話,今天就開始使用吧,讓我們一起讓資料飛起來!