使用 Presidio 實驗性地在 Hub 上進行自動 PII 檢測
在 Hugging Face,我們注意到在我們的 Hub 上託管的機器學習 (ML) 資料集中存在一個令人擔憂的趨勢:關於個人的未文件化私有資訊。這給機器學習從業者帶來了一些獨特的挑戰。在這篇博文中,我們將探討包含一類稱為個人身份資訊 (PII) 的私有資訊的不同型別資料集,它們帶來的問題,以及我們在資料集 Hub 上正在試驗的一項新功能,以幫助解決這些挑戰。
包含 PII 的資料集型別
我們注意到兩種包含 PII 的資料集型別
- 帶註釋的 PII 資料集:像 Ai4Privacy 的 PII-Masking-300k 這樣的資料集是專門為訓練 PII 檢測模型而設計的,這些模型用於檢測和遮蔽 PII。例如,這些模型可以幫助進行線上內容稽核或提供匿名資料庫。
- 預訓練資料集:這些是通常以 TB 為單位的大規模資料集,通常透過網路爬取獲得。雖然這些資料集通常經過過濾以刪除某些型別的 PII,但由於資料量龐大和 PII 檢測模型的缺陷,仍有少量敏感資訊可能遺漏。
機器學習資料集中 PII 的挑戰
機器學習資料集中 PII 的存在會給從業者帶來一些挑戰。首先,它引發了隱私問題,並可能被用來推斷個人的敏感資訊。此外,如果處理不當,PII 可能會影響機器學習模型的效能。例如,如果模型在包含 PII 的資料集上進行訓練,它可能會學會將某些 PII 與特定結果相關聯,從而導致有偏見的預測或從訓練集中生成 PII。
資料集 Hub 的新實驗:Presidio 報告
為了幫助解決這些挑戰,我們正在資料集 Hub 上試驗一項新功能,該功能使用 Presidio,這是一個開源的最新 PII 檢測工具。Presidio 依靠檢測模式和機器學習模型來識別 PII。
透過這項新功能,使用者將能夠檢視一份報告,其中估計資料集中 PII 的存在情況。這些資訊對於機器學習從業者來說非常有價值,可以幫助他們在訓練模型之前做出明智的決策。例如,如果報告表明資料集包含敏感 PII,從業者可以選擇使用 Presidio 等工具進一步過濾資料集。
資料集所有者也可以透過使用報告來驗證其 PII 過濾過程,然後再發布資料集,從而從這項功能中受益。
Presidio 報告示例
讓我們看看這個 預訓練資料集 的 Presidio 報告示例
在這種情況下,Presidio 檢測到資料集中有少量電子郵件和敏感 PII。
結論
機器學習資料集中 PII 的存在是機器學習社群面臨的一個不斷演變的挑戰。在 Hugging Face,我們致力於透明化並幫助從業者應對這些挑戰。透過在資料集 Hub 上試驗 Presidio 報告等新功能,我們希望能夠賦能使用者做出明智決策,並構建更健壯、更符合倫理的機器學習模型。
我們還要感謝 CNIL 在 GDPR 合規性 方面的幫助。他們的指導在處理人工智慧和個人資料問題的複雜性方面發揮了寶貴作用。請在此處檢視他們更新的 AI 操作指南 here。
敬請關注這項激動人心的新進展的更多更新!