倫理與社會通訊 #6:構建更好的 AI:資料質量的重要性

釋出於 2024 年 6 月 24 日
在 GitHub 上更新

今年二月,Reddit 宣佈與 Google 建立新的內容合作伙伴關係,他們將提供資料,以支援基於檢索增強生成 (RAG) 技術的全新生成式 AI 搜尋引擎。這次嘗試並未按計劃進行,很快,人們看到了諸如建議在披薩上加膠水之類的推薦。

在人工智慧時代,海量資料推動著機器學習模型的成長和複雜化。但並非所有資料都是平等的;AI 系統需要高質量資料來產生高質量輸出

那麼,什麼樣的資料才算是“高質量”的,為什麼從一開始就優先考慮資料質量至關重要?實現資料質量不僅僅是準確性或數量的問題;它需要在整個 AI 開發生命週期中貫徹一種全面、負責任的方法。隨著資料質量重新受到關注,我們探討了什麼構成“高質量”資料,為什麼從一開始就優先考慮資料質量至關重要,以及組織如何利用 AI 進行有益的舉措,同時減輕隱私、公平、安全和可持續性方面的風險。

在本文中,我們首先對相關概念進行高層次的概述,然後再進行更詳細的討論。

什麼是優質、高質量的資料?

好的資料不僅僅是準確或充足;它還應適合其預期用途。資料質量必須根據其支援的具體用例進行評估。例如,用於心臟病預測模型的預訓練資料必須包括詳細的患者病史、當前健康狀況和精確的藥物劑量,但在大多數情況下,出於隱私考慮,不應要求患者提供電話號碼或地址。關鍵在於使資料與手頭任務的需求相匹配。從政策角度來看,始終倡導對負責任的機器學習採取“安全源於設計” (safety-by-design) 的方法至關重要。這包括在資料階段本身就採取深思熟慮的步驟。資料質量的理想方面包括(但不限於!)

  • 相關性 (Relevance): 資料必須直接適用於 AI 模型試圖解決的特定問題,並對其有意義。不相關的資料會引入噪音,即資料中可能掩蓋潛在模式並導致效能不佳或意外後果的隨機錯誤或無關資訊。“相關性”在各種關於資料質量工作中廣泛認為至關重要的,因為它提供了對系統可能做什麼或不做什麼的控制,並有助於最佳化統計估計。
  • 全面性 (Comprehensiveness): 資料應捕捉到 AI 將遇到的真實世界場景的全部廣度和多樣性。不完整或狹窄的資料集可能導致偏見和被忽視的問題。這在資料質量工作中也被稱為“完整性” (Completeness)
  • 時效性 (Timeliness): 特別是對於快速發展的領域,資料必須是最新並反映當前狀況。過時的資訊可能使 AI 系統無效甚至危險。這在資料質量工作中也被稱為“時新性” (Currentness)“新鮮度” (Freshness)
  • 偏見緩解 (Mitigation of Biases): 收集資料會帶來從資料來源到收集協議等各方面的偏見。因此,資料選擇工作必須盡一切努力避免編碼無意的有害偏見,這些偏見可能導致系統加劇社會壓迫、刻板印象、歧視和邊緣化群體的代表性不足等問題。

雖然我們關注了一部分資料質量度量,但還有許多其他度量被定義出來,對機器學習資料集很有用,例如可追溯性 (traceability) 和一致性 (consistency)

為什麼需要高質量資料?

投資於資料質量對於提高 AI 模型效能至關重要。在 AI 和機器學習日益融入決策過程的時代,確保資料質量不僅有益,而且是必不可少的。經過適當整理的資料使 AI 系統能夠更有效、準確和公平地執行。它支援開發能夠處理多樣化場景的模型,透過最佳化資源使用促進可持續實踐,並透過減輕偏見和增強透明度來維護道德標準。以下是資料質量的一些關鍵驅動因素:

  • 增強模型產出: 高質量資料透過消除噪音、糾正不準確之處和標準化格式來提高模型效能。
  • 魯棒性與泛化能力: 多樣化、多來源的資料可以防止過擬合,並確保模型在各種真實世界場景中都具有魯棒性。當模型過度學習訓練資料,包括其噪音和異常值,從而導致泛化能力差時,就會發生過擬合。
  • 效率: 高質量資料可以產生更高效、更緊湊的模型,需要更少的計算資源。
  • 表徵性與包容性: 高質量資料應具有代表性和包容性,這有助於解決偏見、促進公平,並確保社會多元群體的代表性。
  • 治理與問責: 諸如資料來源、預處理和溯源的透明度等實踐,確保了有效的 AI 治理和問責。
  • 科學可復現性: 高質量資料對於開放科學至關重要,因為它確保了研究結果的有效性,並有助於可復現性和進一步的研究。

實現資料高質量的流程是怎樣的?

實現高質量資料集的過程涉及幾個關鍵策略。細緻的資料整理和預處理,如去重、內容過濾和人工反饋(例如,透過領域專業知識和利益相關者反饋),對於保持資料集與手頭任務的相關性和準確性至關重要。參與式資料收集開放社群貢獻增強了表徵性和包容性。建立一個具有明確政策、標準和問責制的強大資料治理框架,可確保一致的資料管理。使用準確性和完整性等指標進行定期質量評估,有助於識別和糾正問題。詳盡的文件,包括資料集卡片,可以提高可用性、協作性和透明度。最後,雖然合成數據可能是有益的,但應與真實世界資料結合使用,並進行嚴格驗證,以防止偏見並確保模型效能。一些實現資料質量的方法包括:

下面我們將深入探討這些不同的方面。

透過高質量資料提升模型效能

投資於資料質量對於提升 AI 系統性能至關重要。大量研究表明,更好的資料質量與改進的模型產出直接相關,最近的 Yi 1.5 模型釋出也證實了這一點。實現高資料質量涉及細緻的資料清理和預處理,以去除噪音、糾正不準確之處、填補缺失值並標準化格式。整合多樣化的多源資料可以防止過擬合,並使模型接觸到廣泛的真實世界場景。

高質量資料的好處不僅限於改進指標。更乾淨、更小的資料集使模型能夠更緊湊和引數高效,從而在訓練和推理中需要更少的計算資源和能源。

透過高質量資料提升表徵性

資料質量的另一個關鍵方面是表徵性。模型通常在過度代表主流群體和觀點的訓練資料上訓練,導致扭曲的物體表徵、不平衡的職業和地點偏見,或對有害刻板印象的持續描繪。這意味著要包含社會所有群體的資料,並捕捉廣泛的語言,尤其是在文字資料中。多樣化的表徵有助於減輕文化偏見,並提高模型在不同人群中的效能。此類資料集的一個例子是 CIVICS

參與式方法是實現這一目標的關鍵。透過讓更多利益相關者參與資料建立過程,我們可以確保用於訓練模型的資料更具包容性。像“眾人拾柴資料高”這樣的倡議鼓勵社群為資料集做貢獻,從而豐富了資料的多樣性和質量。同樣,Masakhane 專案專注於為非洲語言建立資料集,例如評估資料集,這些語言在 AI 研究中一直代表性不足。這些努力確保了 AI 系統在不同背景和人群中更加公平有效,最終促進了更具包容性的技術發展。

透過高質量資料實現治理與問責

保持高質量資料實踐對於實現 AI 系統的有效治理和問責至關重要。資料來源、許可證以及任何應用的預處理過程的透明度都至關重要。開發者應提供關於資料溯源 (data provenance) 的清晰文件,包括資料來源、收集方式以及經歷的任何轉換。

這種透明度有助於外部審計和監督,從而能夠對 AI 模型中使用的資料進行徹底檢查和驗證。清晰的文件和資料可追溯性還有助於識別潛在問題並實施緩解策略。這種透明度對於建立信任和促進負責任的 AI 開發至關重要,確保 AI 系統以道德和負責任的方式執行。

透過高質量資料實現適應性與泛化能力

另一個關鍵方面是確保資料反映出 AI 模型在不同情境下適應和泛化所需的多樣性。這包括捕捉代表真實世界的廣泛語言、文化、環境和邊緣案例。涉及受影響社群的參與式資料收集方法可以豐富資料集並提高表徵性,從而確保模型的魯棒性和適應性。

持續評估模型在不同人群中的表現是識別泛化能力差距的關鍵。實現適應性強的 AI 取決於持續的資料收集和整理過程,這些過程能吸收真實世界的反饋迴圈。隨著新產品的釋出或商業環境的變化,訓練資料應同步演進以反映這些變化。開發者應實施流程來識別資料漂移和模型效能下降,確保 AI 模型在變化的環境中保持相關性和有效性。

透過高質量資料實現科學可復現性與可復刻性

在研究領域,資料質量對研究結果的可復現性 (reproducibility) 和有效性 (validity) 有著深遠的影響。質量差的訓練資料可能損害實驗的完整性,並導致不可復現的結果。嚴格的資料質量實踐,例如對預處理步驟的細緻文件記錄和資料集的共享,使其他研究人員能夠審視研究結果並在此前工作的基礎上繼續發展。

可復刻性 (replicability) 被定義為使用新資料得出與先前研究相同科學發現的過程,這是一個更為細緻的概念。有時,一項研究的不可復刻性實際上可能透過將研究從一個狹窄的應用領域擴充套件到更廣闊的領域來促進科學進步。無論如何,如果沒有對資料收集程式和訓練方法的適當文件記錄,可復刻性也是困難的,而當前 AI 領域的可復現性和可復刻性危機可以透過高質量、文件完善的資料得到顯著改善。

高質量資料需要高質量的文件

對於高質量資料而言,一個關鍵方面與程式碼一樣,就是對資料進行詳盡的文件記錄。適當的文件能讓使用者理解資料的內容和背景,從而促進更好的決策,並增強 AI 模型的透明度和可靠性。Hugging Face Hub 提供的資料集卡片 (dataset cards) 是資料文件記錄的創新方法之一。有多種方法可以記錄資料,包括資料宣告 (data statements)資料表 (datasheets)資料營養標籤 (data nutrition labels)資料集卡片 (dataset cards),以及專門的研究論文。通常,這些文件方法涵蓋資料來源和資料集構成、處理步驟、描述性統計(包括資料集中代表的人口統計資訊)以及資料集的原始目的(關於資料透明度的重要性,詳見此處)。資料文件,如資料集卡片,可以幫助實現:

  • 增強可用性: 透過提供清晰全面的資料集概覽,資料集卡片讓使用者更容易理解和有效利用資料。
  • 改進協作: 詳細的文件促進了更好的溝通和協作,因為每個人都對資料有共同的理解。
  • 明智決策: 藉助關於資料的詳細資訊,使用者可以就其應用和對各種任務的適用性做出更明智的決策。
  • 透明度和問責制: 詳盡的文件促進了資料管理的透明度和問責制,從而在使用者和利益相關者之間建立信任。

關於合成數據的說明

合成數據已成為真實世界資料的一種成本效益高的替代方案,為訓練和測試 AI 模型提供了一個可擴充套件的解決方案,而無需承擔與收集和管理大量真實資料相關的費用和隱私問題,例如在 Cosmopedia 專案中的實踐。這種方法使組織能夠根據特定需求生成多樣化的資料集,從而加速開發週期並降低成本。然而,必須意識到潛在的缺點。如果生成資料的演算法本身存在偏見,合成數據可能會無意中引入偏見導致模型產出出現偏差。將模型輸出標記為生成內容非常重要,例如透過水印技術,支援跨不同模態概述)。此外,過度依賴合成數據可能導致模型崩潰 (model collapse),即模型過度擬合合成資料的模式。因此,雖然合成數據是一個強大的工具,但應謹慎使用,並輔以真實世界資料和穩健的驗證過程,以確保模型的效能和公平性。

Hugging Face 的資料質量實踐

確保高資料質量對於開發有效和可靠的 AI 模型至關重要。以下是 Hugging Face 團隊採用的一些資料質量策略示例:

資料質量的一個關鍵方面是過濾和去重。例如,在建立像 FineWeb-Edu 這樣的大型高質量資料集時,Hugging Face 使用了諸如 DataTrove 之類的工具。過濾涉及僅選擇相關且高質量的資料,確保資料集全面而無不必要的噪音。去重則移除冗餘條目,從而提高 AI 模型的效率和效能。這種細緻的方法確保了資料集保持魯棒性和相關性。

負責任的多模態資料建立是 Hugging Face 樹立榜樣的另一個關鍵領域。OBELICS 資料集展示了這方面的幾個最佳實踐。一個重要的實踐是選擇退出過濾 (opt-out filtering),即使用像 Spawning 這樣的 API 移除已選擇不進行再分發或模型訓練的影像。這尊重了內容創作者的權利和偏好。此外,去重確保影像在整個資料集中出現不超過十次,減少了冗餘並確保了多樣化的表徵。內容過濾也至關重要;使用開源分類器檢測和排除 NSFW(不適宜工作場所)內容,並根據其 URL 過濾影像,以保持資料集的適當性和相關性。

處理多樣化的資料型別是 Hugging Face 採用的又一策略。在建立 The Stack V2 時,該資料集涵蓋了廣泛的程式語言和框架,團隊精心挑選了倉庫和專案以確保多樣性和全面性。自動和手動的質量檢查驗證了資料集中程式碼的句法正確性和功能相關性,從而保持了其高質量——例如,BigCode 專案中的去重工作

使用資料標註工具(如 Argilla)收集人工反饋對資料質量有顯著影響,特別是透過讓利益相關者參與資料建立過程。這方面的例子包括透過人工整理改進 UltraFeedback 資料集,從而產生了 Notus,這是 Zephyr 模型的改進版本;以及“眾人拾柴資料高”倡議的社群努力。

除了這些具體實踐之外,還有一些通用策略可以確保資料質量。建立一個強大的資料治理框架是基礎。該框架應包括資料管理的政策、標準和流程,並明確定義角色和職責,以確保問責制並維持高標準。定期的質量評估也至關重要。這些評估可以使用準確性、完整性、一致性和有效性等指標,幫助及早發現和解決問題。資料剖析和統計分析等工具在此過程中能發揮重要作用。

您在進行資料質量方面的工作嗎?快來 Hugging Face Hub 上分享您的工具和方法吧!

Hugging Face 最重要的部分是我們的社群。如果您是一名專注於提高機器學習資料質量的研究人員,尤其是在開放科學的背景下,我們希望支援並展示您的工作!

感謝閱讀! 🤗

~ Avijit 和 Lucie,謹代表 Ethics & Society 常駐貢獻者

如果您想引用這篇博文,請使用以下格式(作者按字母順序排列)

@misc{hf_ethics_soc_blog_6,
  author    = {Avijit Ghosh and Lucie-Aimée Kaffee},
  title     = {Hugging Face Ethics and Society Newsletter 6: Building Better AI: The Importance of Data Quality},
  booktitle = {Hugging Face Blog},
  year      = {2024},
  url       = {https://huggingface.co/blog/ethics-soc-6},
  doi       = {10.57967/hf/2610}
}

社群

註冊登入以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.