LLM 課程文件

標註你的資料集

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

標註你的資料集

Ask a Question

現在是時候開始使用 Argilla UI 來標註我們的資料集了。

使你的團隊與標註指南保持一致

在開始標註資料集之前,編寫一些指南總是一個好習慣,特別是當你作為團隊的一員工作時。這將有助於你在任務和不同標籤的使用上保持一致,並在出現問題或衝突時解決它們。

在 Argilla 中,你可以進入 UI 中的資料集設定頁面,修改指南和問題描述,以幫助保持一致性。

Screenshot of the Dataset Settings page in Argilla.

如果你想深入瞭解如何編寫好的指南,我們建議閱讀這篇部落格文章以及其中提到的參考文獻。

分配任務

在資料集設定頁面,你還可以更改資料集分發設定。當你在團隊中工作時,這將有助於你更有效地進行標註。提交響應的預設最小值為 1,這意味著一旦一個記錄有 1 個提交的響應,它將被視為已完成並計入資料集的進度。

有時,你希望每個記錄有多個提交的響應,例如,如果你想分析任務中的標註者間一致性。在這種情況下,請務必將此設定更改為更大的數字,但始終小於或等於標註者的總數。如果你獨自完成任務,你希望此設定為 1。

標註記錄

💡 如果你在 Hugging Face Space 中部署 Argilla,任何團隊成員都可以使用 Hugging Face OAuth 登入。否則,你可能需要按照本指南為他們建立使用者。

當你開啟資料集時,你會發現第一個問題已經填入了一些建議標籤。這是因為在上一節中,我們將名為 `label` 的問題對映到資料集中的 `label_text` 列,因此我們只需檢視和更正已有的標籤。

Screenshot of the dataset in Argilla.

對於詞元分類,我們需要手動新增所有標籤,因為我們沒有包含任何建議。這就是跨度標註後的樣子。

Screenshot of the dataset in Argilla with spans annotated.

當你瀏覽不同的記錄時,你可以採取不同的操作:

  • 完成記錄後,提交你的響應。
  • 將它們儲存為草稿,以防你以後想回來處理它們。
  • 如果記錄不應成為資料集的一部分,或者你不會對其進行響應,則將其丟棄。

在下一節中,你將學習如何匯出和使用這些標註。

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.