機器學習在發展中:聊聊偏見!
ML中的偏見無處不在,而且ML中的偏見非常複雜;複雜到任何單一的技術干預都不可能有意義地解決它所產生的問題。ML模型作為社會技術系統,會放大社會趨勢,可能以依賴於部署上下文並不斷演變的方式加劇不平等和有害偏見。
這意味著,精心開發ML系統需要保持警惕並響應來自這些部署上下文的反饋,而我們可以透過在不同上下文之間分享經驗教訓並開發工具來促進這一點,以便在ML開發的每個層面分析偏見的跡象。
這篇來自Ethics and Society regulars @🤗的部落格文章分享了我們學到的一些經驗教訓,以及我們開發的一些工具,以支援我們自己和社群中其他人更好地解決機器學習中的偏見。第一部分是對偏見及其背景的更廣泛的思考。如果你已經閱讀過並專門回來尋找工具,請隨時跳轉到資料集或模型部分!
由🤗團隊成員開發的選擇工具,以解決ML中的偏見
目錄
- 關於機器偏見
- 工具與建議
機器偏見:從ML系統到個人和社會風險
隨著ML系統在更多領域和用例中部署,它們以前所未有的規模實現複雜任務的自動化。當技術發揮最佳作用時,它可以幫助理順人與技術系統之間的互動,消除對高度重複性工作的需求,或解鎖新的資訊處理方式以支援研究。
這些系統也可能複製其訓練資料中存在的歧視性和濫用行為,特別是當資料編碼了人類行為時。這項技術就有可能使這些問題變得更加嚴重。自動化和大規模部署確實可以:
- 固化行為並阻礙社會進步在技術中得到體現,
- 將有害行為傳播到原始訓練資料之外的上下文,
- 透過在預測時過度關注刻板印象關聯來放大不公平,
- 透過將偏見隱藏在“黑箱”系統內來消除追索的可能性。
為了更好地理解和解決這些風險,機器學習研究人員和開發者已經開始研究**機器學習偏見**或**演算法偏見**,這些機制可能導致系統在其部署環境中,例如,編碼**負面刻板印象或關聯**,或對不同人群產生**不同效能**。
對於Hugging Face和更廣泛的機器學習社群的許多機器學習研究人員和開發者來說,**這些問題是極其個人化的**。Hugging Face是一家國際公司,我們中的許多人生活在不同的國家和文化之間。當我們看到我們所從事的技術在開發時沒有充分考慮保護像我們這樣的人時,我們很難完全表達我們的緊迫感;特別是當這些系統導致歧視性的錯誤逮捕或不當的經濟困境,並且正在被越來越多地出售給世界各地的移民和執法服務機構時。同樣,看到我們的身份在訓練資料集中經常被壓制,或在“生成式AI”系統的輸出中代表性不足,將這些擔憂與我們日常的生活經歷聯絡起來,這些經歷既有啟發性又令人疲憊。
雖然我們自身的經歷遠不能涵蓋機器學習介導的歧視可能對與我們經歷不同的人造成不成比例傷害的無數方式,但它們提供了一個切入點,思考技術固有的權衡。我們致力於這些系統,因為我們**堅信機器學習的潛力——我們認為只要在開發時謹慎並聽取部署環境中人員的意見,它就能成為一個有價值的工具**,而不是一勞永逸的萬能藥。特別是,實現這種謹慎需要更好地理解機器學習開發過程中機器偏見的機制,並開發工具,支援具備不同技術知識水平的人參與必要的對話,討論如何分配其益處和危害。
本部落格文章由 Hugging Face 道德與社會常客提供,概述了我們如何工作、正在工作或建議 HF 生態系統庫的使用者如何工作,以解決 ML 開發過程各個階段的偏見,以及我們開發的支援此過程的工具。我們希望您會發現它是一個有用的資源,可用於指導您對工作社會影響的具體考量,並可利用此處引用的工具來幫助緩解這些問題。
將偏見置於語境中
在處理機器偏見時,第一個也是最重要的概念可能是**語境**。Su Lin Blodgett 等人在其關於NLP 中的偏見的基礎性工作中指出:“[大多數關於機器偏見的學術著作]未能批判性地探討‘偏見’究竟是什麼”,包括透過建立在其“關於何種系統行為有害、以何種方式、對誰以及為什麼有害的未說明的假設”之上。
鑑於機器學習研究社群對“泛化”價值的關注——這是該領域工作中僅次於“效能”的最常被引用的動機,這可能並不令人驚訝。然而,雖然適用於廣泛設定的偏見評估工具對於**更廣泛地分析模型行為中的常見趨勢**很有價值,但它們針對**具體用例**中導致歧視的機制的能力固有地受到限制。使用它們來指導機器學習開發週期中的特定決策通常需要額外的一兩個步驟,以考慮系統的特定使用上下文和受影響的人群。
《模型卡片指南》中關於ML使用語境和人員的考量摘錄
現在,讓我們深入探討將獨立/無上下文的機器學習製品中的偏見與具體危害聯絡起來的問題。將**機器偏見視為基於歧視的危害的風險因素**可能很有用。以一個文字到影像模型為例,當被提示在專業環境中建立人物圖片時,該模型會過度呈現淺膚色,但當提示提及犯罪行為時,則會生成深膚色的圖片。這些傾向就是我們所說的*模型層面的機器偏見*。現在讓我們思考幾個使用此類文字到影像模型的系統:
- 該模型已整合到網站建立服務中(例如 SquareSpace、Wix),以幫助使用者為其頁面生成背景。該模型明確停用了生成背景中的人物影像。
- 在這種情況下,“機器偏見”風險因素不會導致歧視危害,因為偏見的焦點(人物影像)在該用例中不存在。
- 對於機器偏見,不需要進一步的風險緩解,儘管開發者應瞭解有關將基於抓取資料訓練的系統整合到商業系統中的合法性的持續討論。
- 該模型已整合到圖片素材網站中,為使用者提供人物合成影像(例如在專業環境中),他們可以使用這些影像,而無需擔心隱私問題,例如,作為維基百科文章的插圖。
- 在這種情況下,機器偏見會**固化**和**放大**現有的社會偏見。它強化了關於人的刻板印象(“CEO都是白人男性”),然後反饋到複雜的社會系統中,導致偏見加劇,以多種不同方式加劇歧視(例如強化工作場所的內隱偏見)。
- 緩解策略可能包括向圖片素材使用者宣傳這些偏見,或者圖片素材網站可能會策劃生成的影像,以有意提供更多樣化的表示。
- 該模型已整合到向警察部門銷售的“虛擬素描藝術家”軟體中,該軟體將根據口頭證詞生成嫌疑人圖片
- 在這種情況下,機器偏見直接導致歧視,透過系統地將警察部門導向深色皮膚的人,使他們面臨更高的傷害風險,包括人身傷害和非法監禁。
- 在這種情況下,可能沒有能夠將風險降至可接受水平的偏見緩解措施。特別是,這種用例將與執法背景下的面部識別密切相關,其中類似的偏見問題已導致幾家商業實體和立法機構全面暫停或禁止其使用。
那麼,誰來承擔機器學習中機器偏見的責任呢?這三個案例說明了關於機器學習開發者在解決偏見方面的責任為何如此複雜的原因之一:根據機器學習系統開發過程中其他人在其他環節做出的決策,機器學習資料集或模型中的偏見可能介於與應用設定無關和直接導致嚴重危害之間。然而,在所有這些案例中,**模型/資料集中更強的偏見會增加負面結果的風險**。歐盟已開始在最近的監管工作中解決這一現象:簡而言之,部署基於可測量偏見模型的AI系統的公司對系統造成的損害負有責任。
將偏見概念化為風險因素,使我們能夠更好地理解各個階段的開發人員在機器偏見方面的**共同責任**。偏見永遠無法完全消除,這不僅僅是因為社會偏見的定義以及將它們與歧視聯絡起來的權力動態在不同社會背景下差異巨大。然而
- 開發過程的每個階段,從任務規範、資料集整理、模型訓練,到模型整合和系統部署,都可以採取措施最大限度地減少**最直接依賴於其選擇**和技術決策的**機器偏見**方面,以及
- 各ML開發階段之間清晰的溝通和**資訊流**可以決定是選擇相互補充以減輕偏見的負面潛力(多管齊下的偏見緩解方法,如上述部署場景1)*還是*選擇疊加這種負面潛力以加劇危害風險(如部署場景3)。
在下一節中,我們將回顧這些不同階段以及可以幫助我們在每個階段解決機器偏見的一些工具。
在整個ML開發週期中處理偏見
準備好實用建議了嗎?我們開始吧🤗
開發ML系統沒有唯一的方法;具體的步驟順序取決於多種因素,包括開發環境(大學、大型公司、初創公司、基層組織等)、模態(文字、表格資料、影像等)以及公開可用ML資源的豐富或稀缺程度。然而,我們可以確定在處理偏見方面特別重要的三個常見階段。它們是任務定義、資料整理和模型訓練。讓我們來看看在這些不同階段,偏見處理可能如何不同。
Meg的偏見ML管道
我正在定義我的ML系統任務,我該如何處理偏見?
系統中的偏見是否以及在何種程度上具體影響人們,最終取決於系統的用途。因此,開發者可以著手緩解偏見的第一個地方是決定如何將機器學習融入他們的系統,例如,透過決定它將使用什麼最佳化目標。
例如,讓我們回到最早被高度宣傳的在生產中用於演算法內容推薦的機器學習系統案例之一。從2006年到2009年,Netflix舉辦了Netflix大獎賽,這是一項獎金100萬美元的競賽,挑戰世界各地的團隊開發機器學習系統,根據使用者過去的評分準確預測使用者對新電影的評分。獲獎作品在未見過的使用者-電影對的預測中,RMSE(均方根誤差)比Netflix自己的CineMatch演算法提高了10%以上,這意味著它在根據使用者歷史預測新電影評分方面表現得更好。這種方法將機器學習在推薦系統中建模使用者偏好方面的作用帶入公眾視野,為許多現代演算法內容推薦打開了大門。
那這與偏見有什麼關係呢?向人們展示他們可能喜歡的內容,聽起來不像是內容平臺提供的好服務嗎?結果是,向人們展示更多**他們過去喜歡的內容**最終會降低他們消費媒體的多樣性。這不僅會導致使用者長期滿意度下降,還意味著如果模型在正在進行的機器學習介導的使用者互動中進一步訓練,初始模型捕獲的任何偏見或刻板印象——例如在建模美國黑人使用者偏好或系統性地使某些藝術家處於不利地位的動態時——很可能會被強化。這反映了我們上面提到的兩種與偏見相關的擔憂:訓練目標作為偏見相關危害的**風險因素**,因為它使得預先存在的偏見更有可能出現在預測中,而任務框架具有**固化**和加劇過去偏見的作用。
在此階段,一種有前景的偏見緩解策略是重新定義任務,以便在將機器學習應用於演算法內容推薦時明確同時建模參與度和多樣性。使用者可能會獲得更長期的滿意度,並且如上所述加劇偏見的風險也會降低!
這個例子說明了機器學習在產品中的影響不僅取決於我們決定在哪裡利用機器學習,還取決於機器學習技術如何融入更廣泛的技術系統以及其目標。當首次研究機器學習如何適應你感興趣的產品或用例時,我們首先建議從偏見的角度尋找系統的故障模式,甚至在深入研究可用模型或資料集之前——如果偏見被機器學習預測加劇,現有系統在該空間中的哪些行為會特別有害或更有可能發生?
我們構建了一個工具,用於在另一種演算法內容管理案例中引導使用者回答這些問題:自動內容稽核中的仇恨言論檢測。我們發現,例如,查閱那些不特別關注機器學習部分技術的新聞和科學文章,已經是瞭解偏見在何處發揮作用的絕佳方式。一定要去看看模型和資料集如何與部署環境相匹配,以及它們如何與已知偏見相關的危害相關聯的示例!
Angie、Amandalynne和Yacine的ACM任務探索工具
任務定義:建議
機器學習任務定義和部署影響偏見相關危害風險的方式與機器學習系統的應用場景一樣多。如上例所示,一些有助於決定是否以及如何應用機器學習以最大限度地降低偏見相關風險的常見步驟包括:
- 調查
- 機器學習之前該領域的偏見報告
- 您特定用例中的高風險人口類別
- 檢查
- 您的最佳化目標對強化偏見的影響
- 有利於多樣性和積極長期影響的替代目標
我正在為我的ML系統整理/選擇資料集,我該如何處理偏見?
雖然訓練資料集並非機器學習開發週期中偏見的唯一來源,但它們確實扮演著重要角色。你的資料集是否不成比例地將女性傳記與生活事件相關聯,而將男性傳記與成就相關聯?這些**刻板印象**很可能會出現在你的整個機器學習系統中!你的語音識別資料集是否只包含特定口音?這對於你用它構建的技術包容性來說不是一個好兆頭,因為它可能導致**效能差異**!無論是為機器學習應用整理資料集,還是選擇資料集來訓練機器學習模型,發現、緩解和溝通資料表現出這些現象的程度都是降低偏見相關風險的必要步驟。
透過反思資料集的來源、資料中代表的人群以及整理過程,通常可以很好地瞭解資料中可能存在的偏見。為此,已經提出了幾種反思和文件框架,例如NLP 資料宣告或資料集資料表。Hugging Face Hub 包含一個受這些工作啟發的資料集卡片模板和指南;如果您正在瀏覽資料集,資料使用注意事項部分通常是查詢有關顯著偏見資訊的好地方,如果您正在分享新資料集,也可以在此處撰寫一段分享您對此主題見解的文字。如果您正在尋找更多撰寫靈感,請檢視 Hub 使用者在 BigLAM 組織中為法律程式、影像分類和報紙等歷史資料集撰寫的這些部分。
HF資料集卡片指南,用於社會影響和偏見部分
雖然描述資料集的來源和上下文始終是理解其中存在的偏見的良好起點,但定量測量編碼這些偏見的現象也同樣有幫助。如果您正在為給定任務選擇兩個不同的資料集,或在不同資料集上訓練的兩個機器學習模型之間進行選擇,瞭解哪個資料集能更好地代表您的機器學習系統使用者群的人口構成,可以幫助您做出明智的決策,以最大限度地降低偏見相關風險。如果您透過過濾源資料點或選擇新的資料來源來迭代整理資料集,測量這些選擇如何影響整個資料集中的多樣性和偏見,可以使其使用起來更安全。
我們最近釋出了兩個工具,您可以利用它們從偏見角度衡量資料。disaggregators🤗 庫提供了量化資料集組成的實用程式,可以使用元資料或利用模型推斷資料點的屬性。這對於最小化與偏見相關的**表示損害**或訓練模型**不同效能**的風險特別有用。檢視演示,瞭解其在 LAION、MedMCQA 和 The Stack 資料集上的應用!
一旦你有了關於資料集組成的一些有用的統計資料,你還會想檢視資料項中特徵之間的關聯,特別是那些可能編碼貶損或其他負面刻板印象的關聯。我們去年最初引入的資料測量工具允許你透過檢視文字資料集中術語之間的歸一化點互資訊 (nPMI) 來做到這一點;特別是可能表示性別刻板印象的性別代詞之間的關聯。自己執行它或在這裡嘗試它,對一些預計算的資料集進行測試!
資料測量工具,由Meg、Sasha、Bibi和Gradio團隊開發
資料集選擇/整理:建議
這些工具本身並不是完整的解決方案,而是旨在透過多種視角,包括偏見和偏見相關風險的視角,支援對資料集進行批判性審查和改進。總的來說,我們鼓勵您在利用這些工具和其他工具來緩解資料集整理/選擇階段的偏見風險時,牢記以下步驟:
- 識別
- 可能加劇特定偏見的資料集建立方面
- 對資料集任務和領域特別重要的人口類別和社會變數
- 測量
- 資料集中人口分佈
- 已識別的負面刻板印象
- 文件
- 在您的資料集卡片中分享您已識別和測量到的資訊,以便其他使用者、開發者和受影響的人受益
- 調整
- 透過選擇最不可能導致偏見相關危害的資料集
- 透過迭代改進資料集以降低偏見風險
我正在訓練/選擇模型用於我的ML系統,我該如何處理偏見?
與資料集整理/選擇步驟類似,記錄和測量模型中與偏見相關的現象可以幫助那些選擇直接使用或微調模型的機器學習開發者,以及那些希望訓練自己模型的機器學習開發者。對於後者,模型中與偏見相關的現象的測量可以幫助他們從其他模型的成功或失敗經驗中學習,並作為指導他們自己開發選擇的訊號。
模型卡片最初由(Mitchell 等人,2019)提出,它提供了一個模型報告框架,展示與偏見風險相關的資訊,包括廣泛的倫理考量、分層評估和用例建議。Hugging Face Hub 為模型文件提供了更多工具,在 Hub 文件中提供了模型卡片指南,還有一個應用程式可以讓你輕鬆為新模型建立詳細的模型卡片。
文件是分享模型行為一般性見解的良好第一步,但它通常是靜態的,並向所有使用者呈現相同的資訊。在許多情況下,特別是對於可以生成近似其訓練資料分佈的生成模型,我們可以透過視覺化和對比模型輸出,獲得對偏見相關現象和**負面刻板印象**更具上下文的理解。訪問模型生成可以幫助使用者引入與他們生活經驗相對應的模型行為中的交叉問題,並評估模型在多大程度上再現了不同形容詞的性別刻板印象。為了促進這個過程,我們構建了一個工具,不僅可以讓你比較一組形容詞和職業的生成結果,還可以比較不同模型之間的生成結果!去試試吧,瞭解哪個模型在你的用例中可能攜帶最少的偏見風險。
然而,模型輸出的視覺化不僅僅適用於生成模型!對於分類模型,我們還需要注意模型在不同人群上**效能差異**導致的偏見相關危害。如果您知道哪些受保護類別最容易受到歧視,並且這些類別已在評估集中標註,那麼您可以如上所述在模型卡片中報告不同類別的分層效能,以便使用者可以做出明智的決策。但是,如果您擔心尚未識別出所有面臨偏見相關危害風險的人群,或者如果您無法訪問帶標註的測試示例來衡量您懷疑的偏見,那麼互動式視覺化模型在哪裡以及如何失敗的工具就派上用場了!為了幫助您解決這個問題,SEAL 應用程式會將模型中相似的錯誤分組,並向您展示每個叢集中的一些常見特徵。如果您想進一步探索,甚至可以將其與我們在資料集部分介紹的拆分器庫結合使用,以找到指示偏見相關故障模式的叢集!
最後,存在一些可以衡量模型中偏見相關現象的基準。對於語言模型,諸如BOLD、HONEST或WinoBias等基準提供了對模型中偏見跡象的定量評估。雖然這些基準有其侷限性,但它們確實提供了對一些預先識別的偏見風險的有限視角,可以幫助描述模型的功能或在不同模型之間進行選擇。您可以在這個探索空間中找到這些對一系列常見語言模型預先計算的評估,以初步瞭解它們的比較情況!
即使您可以使用針對您正在考慮的模型而設的基準,您可能也會發現,執行您正在考慮的更大型語言模型的評估可能過於昂貴,或者由於您自身的計算資源而無法實現。我們今年釋出的Hub 評估工具可以幫助解決這個問題:它不僅可以為您執行評估,還可以幫助將評估結果與模型文件關聯起來,以便結果一勞永逸地可用——因此每個人都可以看到,例如,模型大小明顯增加了 OPT 等模型的偏見風險!
Helen、Tristan、Abhishek、Lewis和Douwe透過Hub評估工具計算的大型模型WinoBias得分
模型選擇/開發:建議
對於模型,就像對於資料集一樣,不同的文件和評估工具將提供模型中偏見風險的不同檢視,所有這些檢視都在幫助開發人員選擇、開發或理解機器學習系統中發揮作用。
- 視覺化
- 生成模型:視覺化模型輸出如何反映刻板印象
- 分類模型:視覺化模型錯誤以識別可能導致效能差異的故障模式
- 評估
- 儘可能在相關基準上評估模型
- 文件
- 分享您從視覺化和定性評估中獲得的經驗
- 報告您模型的分層效能和在適用公平性基準上的結果
結論與🤗偏見分析和文件工具概述
隨著我們學會將機器學習系統應用於越來越多的場景,公平地利用其優勢將取決於我們主動減輕與該技術相關的偏見風險的能力。雖然在任何可能的設定中,如何最好地做到這一點沒有單一的答案,但我們可以透過分享經驗教訓、工具和方法來減輕和記錄這些風險,從而相互支援。本部落格文章概述了 Hugging Face 團隊成員如何解決偏見問題以及支援工具,我們希望您會發現它們有幫助,並鼓勵您開發和分享自己的工具!
關聯工具總結
- 任務
- 資料集
- 模型
- 利用並貢獻模型卡片,分享模型中偏見的相關見解。
- 使用互動式模型卡片視覺化效能差異
- 檢視系統性模型錯誤,並注意已知的社會偏見。
- 使用Evaluate和Evaluation on the Hub探索語言模型偏見,包括在大型模型中
- 使用文字到影像偏見探索器比較影像生成模型的偏見。
- 使用偏見記分卡比較LM模型
感謝閱讀! 🤗
~ Yacine,代表倫理與社會常客
如果您想引用這篇部落格文章,請使用以下內容:
@inproceedings{hf_ethics_soc_blog_2,
author = {Yacine Jernite and
Alexandra Sasha Luccioni and
Irene Solaiman and
Giada Pistilli and
Nathan Lambert and
Ezi Ozoani and
Brigitte Toussignant and
Margaret Mitchell},
title = {Hugging Face Ethics and Society Newsletter 2: Let's Talk about Bias!},
booktitle = {Hugging Face Blog},
year = {2022},
url = {https://doi.org/10.57967/hf/0214},
doi = {10.57967/hf/0214}
}