資料共同助力:使用 Argilla 和 Hugging Face Spaces 賦能社群共同構建更優資料集

釋出於 2024 年 3 月 4 日
在 GitHub 上更新

最近,Argilla 和 Hugging Face 推出了 Data is Better Together,這是一項共同構建提示排名偏好資料集的實驗。幾天之內,我們取得了:

  • 350 名社群貢獻者進行資料標註
  • 超過 11,000 條提示評分

請檢視進度儀表盤以獲取最新資料!

這促成了 10k_prompts_ranked 資料集的釋出,該資料集包含 10,000 條帶有使用者質量評分的提示。我們希望能夠實現更多類似的專案!

在這篇文章中,我們將討論為何我們認為社群協作構建資料集至關重要,並邀請大家加入 Argilla 和 Hugging Face 將支援的首批社群,共同開發更好的資料集!

資料對於構建更好的模型至關重要

資料對於構建更好的模型仍然至關重要:我們從已發表的研究、開源實驗以及開源社群中持續看到證據表明,更好的資料可以帶來更好的模型。

Screenshot of datasets in the Hugging Face Hub
問題是。

Screenshot of datasets in the Hugging Face Hub
一個常見的答案。

為何要共同構建資料集?

資料對於機器學習至關重要,但許多語言、領域和任務仍然缺乏高質量的資料集用於訓練、評估和基準測試——社群每天透過 Hugging Face Hub 共享數千個模型、資料集和演示。透過協作,開放獲取的 AI 社群創造了許多驚人的成果。賦能社群共同構建資料集將為構建下一代資料集以構建下一代模型開啟獨特的機會。

賦能社群共同構建和改進資料集將使人們能夠:

  • 在無需機器學習或程式設計技能的情況下為開源機器學習的開發做出貢獻。
  • 為特定語言建立聊天資料集。
  • 為特定領域開發基準資料集。
  • 從不同參與者那裡建立偏好資料集。
  • 為特定任務構建資料集。
  • 作為一個社群共同構建全新型別的資料集。

重要的是,我們相信共同構建資料集將使社群能夠構建更好的資料集,並讓不懂程式設計的人也能夠為 AI 的發展做出貢獻。

讓人們輕鬆貢獻

以前許多共同構建 AI 資料集的努力面臨的挑戰之一是建立高效的標註任務。Argilla 是一款開源工具,可以幫助為 LLM 和更小的專用任務模型建立資料集。Hugging Face Spaces 是一個用於構建和託管機器學習演示和應用程式的平臺。最近,Argilla 增加了對託管在 Spaces 上的 Argilla 例項透過 Hugging Face 賬戶進行身份驗證的支援。這意味著使用者現在只需幾秒鐘即可開始為標註任務做出貢獻。

現在我們已經透過建立 10k_prompts_ranked 資料集對這一新工作流程進行了壓力測試,我們希望支援社群發起新的集體資料集工作。

加入我們首批希望共同構建更優資料集的社群!

我們對這種新的、簡單的託管標註任務流程所帶來的可能性感到非常興奮。為了支援社群構建更好的資料集,Hugging Face 和 Argilla 邀請有興趣的人和社群加入我們的首批社群資料集構建者。

加入本批次的人員將:

  • 在建立具有 Hugging Face 身份驗證的 Argilla Space 方面獲得支援。Hugging Face 將為參與者提供免費的持久儲存和改進的 CPU 空間。
  • 他們的宣傳和推廣活動將得到 Argilla 和 Hugging Face 的擴大支援。
  • 被邀請加入一個協作社群頻道

我們的目標是支援社群共同構建更好的資料集。我們對許多想法持開放態度,並希望儘可能支援社群共同構建更好的資料集。

我們正在尋找哪種型別的專案?

我們願意支援多種型別的專案,尤其是現有開源社群的專案。我們特別感興趣的是那些專注於為目前在開源社群中代表性不足的語言、領域和任務構建資料集的專案。我們目前唯一的限制是,我們主要關注基於文字的資料集。如果您對多模態資料集有非常酷的想法,我們很樂意聽取您的意見,但可能無法在本批次中為您提供支援。

任務可以完全開放,也可以僅對特定 Hugging Face Hub 組織的成員開放。

如果您想成為首批成員,請加入 Hugging Face Discord 的 #data-is-better-together 頻道,告訴我們您想共同構建什麼!

我們期待與您共同構建更優資料集!

社群

註冊登入以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.