Argilla 2.4:在 Hub 上輕鬆構建微調和評估資料集——無需程式碼

釋出於 2024 年 11 月 4 日
在 GitHub 上更新

我們非常高興能分享 Argilla 加入 Hugging Face 以來最具影響力的功能:您無需任何程式碼即可準備 AI 資料集,從任何 Hub 資料集開始!使用 Argilla 的 UI,您可以輕鬆從 Hugging Face Hub 匯入資料集,定義問題,並開始收集人工反饋。

不熟悉 Argilla?Argilla 是一款免費、開源的以資料為中心的工具。使用 Argilla,AI 開發人員和領域專家可以協作構建高質量資料集。Argilla 是 Hugging Face 家族的一部分,並與 Hub 完全整合。想了解更多?這裡有一篇入門部落格文章

為什麼這項新功能對您和社群很重要?

  • Hugging Face hub 包含 23 萬個資料集,您可以將其作為 AI 專案的基礎。
  • 它簡化了從 Hugging Face 社群或專業團隊收集人工反饋的過程。
  • 它為對特定領域擁有豐富知識但對編寫程式碼不確定性的使用者民主化了資料集建立過程。

用例

這項新功能民主化了在 Hub 上構建高質量資料集的過程

  • 如果您已經發布了開放資料集並希望社群貢獻,請將其匯入公共 Argilla Space 並與世界分享 URL!
  • 如果您想從頭開始註釋新資料集,請將 CSV 上傳到 Hub,將其匯入您的 Argilla Space,然後開始標註!
  • 如果您想為微調或評估模型而策展現有 Hub 資料集,請將資料集匯入 Argilla Space 並開始策展!
  • 如果您想改進現有 Hub 資料集以造福社群,請將其匯入 Argilla Space 並開始提供反饋!

工作原理

首先,您需要部署 Argilla。推薦的方法是按照此指南在 Spaces 上部署。預設部署啟用了 Hugging Face OAuth,這意味著您的 Space 將對任何 Hub 使用者開放註釋貢獻。OAuth 非常適合您希望社群為您的資料集做出貢獻的用例。如果您想將註釋限制為您和其他協作者,請檢視此指南以獲取更多配置選項。

Argilla 執行後,登入並單擊主頁上的“從 Hugging Face 匯入資料集”按鈕。您可以從我們的示例資料集開始,或輸入要使用的資料集的 repo ID。

在此第一個版本中,Hub 資料集必須是公共的。如果您對支援私有資料集感興趣,我們很樂意在 GitHub 上聽到您的意見。

Argilla 會根據資料集的特徵自動建議初始配置,因此您無需從頭開始,但您可以新增問題或刪除不必要的欄位。欄位應包含您想要反饋的資料,例如文字、聊天或影像。問題是您希望收集的反饋,例如標籤、評分、排名或文字。所有更改都會即時顯示,因此您可以清楚地瞭解正在配置的 Argilla 資料集。

對結果滿意後,單擊“建立資料集”以匯入具有您的配置的資料集。現在您已準備好提供反饋!

您可以按照快速入門指南親自嘗試。這隻需不到 5 分鐘!

這種新工作流程簡化了從 Hub 匯入資料集的過程,但如果您需要進一步自定義,您仍然可以使用 Argilla 的 Python SDK 匯入資料集

我們很樂意聽到您的想法和初次體驗。請在 GitHubHF Discord 上告訴我們!

社群

註冊登入評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.