資料共建,效果更佳:回顧與展望
釋出於 2024 年 6 月 20 日
在 GitHub 上更新在過去的幾個月裡,我們一直致力於 Data Is Better Together 計劃。透過 Hugging Face 和 Argilla 之間的合作以及開源機器學習社群的支援,我們的目標是賦能開源社群,共同建立有影響力的資料集。
現在,我們決定繼續朝著同樣的目標前進。為了概述我們取得的成就以及每個人都可以貢獻的任務,我們將其分為兩個部分:社群工作和 cookbook 工作。
社群工作
我們這項計劃的第一步專注於 提示詞排名 專案。我們的目標是建立一個包含 1 萬個提示詞的資料集,這些提示詞包括合成生成和人工生成的,並按質量進行排名。社群的響應立竿見影!
- 幾天之內,就有超過 385 人加入。
- 我們釋出了 DIBT/10k_prompts_ranked 資料集,用於提示詞排名任務或合成數據生成。
- 該資料集被用於構建新的模型,例如 SPIN。
看到來自全球社群的支援,我們認識到僅以英語為中心的資料是不夠的,而且針對開放 LLM 的特定語言基準也不足。因此,我們建立了多語言提示詞評估專案 (MPEP),旨在為多種語言開發一個排行榜。為此,我們從 DIBT/10k_prompts_ranked 中選取了 500 個高質量提示詞的子集,並將其翻譯成不同語言。
未來,我們將繼續透過工具和文件支援社群專注於構建資料集的工作。
Cookbook 工作
作為 DIBT 的一部分,我們還建立了指南和工具,幫助社群自行構建有價值的資料集。
- 特定領域資料集:為了啟動更多用於訓練模型的特定領域資料集的建立,將工程師和領域專家聚集在一起。
- DPO/ORPO 資料集:為了幫助培養一個社群,為不同語言、領域和任務構建更多 DPO 風格的資料集。
- KTO 資料集:為了幫助社群建立自己的 KTO 資料集。
我們學到了什麼?
- 社群渴望參與這些工作,並對共同致力於資料集感到興奮。
- 為確保全面和包容的基準,必須克服現有的不平等。目前,某些語言、領域和任務的資料集在開源社群中的代表性不足。
- 我們擁有許多社群有效協作構建有價值資料集所需的工具。
你如何參與其中?
您仍然可以透過遵循您感興趣專案的 README 中的說明,與社群分享您的資料集和結果,或者為每個人提供新的指南和工具,來為 cookbook 工作做出貢獻。您的貢獻對於幫助我們為所有人構建一個強大而全面的資源是無價的。
如果你想參與其中,請加入我們在 Hugging Face Discord 中的 #data-is-better-together
頻道,告訴我們你想一起構建什麼!
我們期待與您一起構建更好的資料集!