道德與社會通訊 #4:文字到影像模型中的偏見

釋出於 2023 年 6 月 26 日
在 GitHub 上更新

摘要:我們需要更好的方法來評估文字到影像模型中的偏見

引言

如今,文字到影像 (Text-to-Image, TTI) 生成技術風靡一時,成千上萬的 TTI 模型被上傳到 Hugging Face Hub。每種模態都可能受到不同來源的偏見影響,這就引出了一個問題:我們如何發現這些模型中的偏見?在當前的這篇部落格文章中,我們分享了關於 TTI 系統中偏見來源的看法,以及解決這些問題的工具和潛在方案,展示了我們自己的專案以及來自更廣泛社群的專案。

影像生成中編碼的價值觀和偏見

偏見和價值觀之間存在著非常密切的關係,特別是當它們被嵌入到用於訓練和查詢特定文字到影像模型的語言或影像中時;這種現象嚴重影響了我們在生成影像中看到的輸出。儘管這種關係在更廣泛的 AI 研究領域是眾所周知的,並且正在進行大量努力來解決它,但試圖在單個模型中表示特定人群價值觀的演變性質的複雜性仍然存在。這為發現和充分解決問題提出了一個持久的道德挑戰。

例如,如果訓練資料主要是英文的,它們很可能傳達的是西方的價值觀。結果,我們得到了對不同或遙遠文化的刻板印象。當我們比較 ERNIE ViLG (左) 和 Stable Diffusion v 2.1 (右) 對於相同提示 “北京的一所房子” 的結果時,這種現象就顯得很明顯。


results of ERNIE ViLG (left) and Stable Diffusion v 2.1 (right) for the same prompt, a house in Beijing

偏見的來源

近年來,關於在自然語言處理 (Abid 等人,2021) 和計算機視覺 (Buolamwini and Gebru,2018) 的單一模態 AI 系統中檢測偏見的研究取得了重要進展。由於機器學習模型是由人構建的,偏見存在於所有機器學習模型中 (實際上,也存在於所有技術中)。這可能表現為影像中某些視覺特徵的過度或不足表示 (例如,所有辦公室職員的影像都打著領帶),或者文化和地理刻板印象的存在 (例如,所有新娘的影像都穿著白色婚紗和麵紗,而不是更具代表性的世界各地新娘的影像,比如穿著紅色紗麗的新娘)。鑑於 AI 系統部署在日益廣泛應用於不同部門和工具 (例如 FireflyShutterstock) 的社會技術環境中,它們特別有可能放大現有的社會偏見和不平等。我們旨在下面提供一個非詳盡的偏見來源列表:

訓練資料中的偏見: 像用於文字到影像的 LAION-5B、用於影像字幕的 MS-COCO 以及用於視覺問答的 VQA v2.0 等流行的多模態資料集,被發現含有大量的偏見和有害關聯 (Zhao 等人,2017, Prabhu and Birhane, 2021, Hirota 等人,2022),這些偏見會滲透到在這些資料集上訓練的模型中。例如,Hugging Face Stable Bias 專案 的初步結果顯示,影像生成中缺乏多樣性,並且固化了對文化和身份群體的普遍刻板印象。比較 Dall-E 2 生成的 CEO (右) 和經理 (左) 的影像,我們可以看到兩者都缺乏多樣性。


Dall-E 2 generations of CEOs (right) and managers (left)

預訓練資料過濾中的偏見: 在資料集用於訓練模型之前,通常會進行某種形式的過濾;這會引入不同的偏見。例如,Dall-E 2 的建立者在他們的 部落格文章 中發現,過濾訓練資料實際上可能會放大偏見——他們推測這可能是因為現有的資料集偏向於在更性化的背景下表現女性,或者是由於他們使用的過濾方法本身存在偏見。

推理中的偏見: 用於指導 Stable Diffusion 和 Dall-E 2 等文字到影像模型訓練和推理的 CLIP 模型存在許多有據可查的偏見,涉及年齡、性別、種族或民族,例如將標記為白人中年男性的影像視為預設值。這可能會影響使用它進行提示編碼的模型的生成結果,例如將未指定或未充分指定的性別和身份群體解釋為白人和男性。

模型潛在空間中的偏見: 在探索模型潛在空間和引導影像生成沿著不同軸 (如性別) 以使生成結果更具代表性方面,已經進行了初步工作 (見下圖)。然而,需要更多的工作來更好地理解不同型別擴散模型的潛在空間結構以及可能影響生成影像中偏見的因素。


Fair Diffusion generations of firefighters.

事後過濾中的偏見: 許多影像生成模型都帶有內建的安全過濾器,旨在標記有問題的內容。然而,這些過濾器的工作效果以及它們對不同型別內容的魯棒性還有待確定——例如,對 Stable Diffusion 安全過濾器進行紅隊測試的努力表明,它主要識別色情內容,而未能標記其他型別的暴力、血腥或令人不安的內容。

檢測偏見

我們上面描述的大多數問題都無法用單一解決方案解決——事實上,偏見是一個複雜的話題,無法僅用技術來有意義地解決。偏見與它所存在的更廣泛的社會、文化和歷史背景緊密交織。因此,解決 AI 系統中的偏見不僅是一個技術挑戰,也是一個需要多學科關注的社會技術挑戰。然而,結合包括工具、紅隊測試和評估在內的方法,可以幫助獲得重要的見解,為模型建立者和下游使用者提供關於 TTI 和其他多模態模型中包含的偏見的資訊。

我們將在下面介紹其中一些方法。

用於探索偏見的工具: 作為 Stable Bias 專案的一部分,我們建立了一系列工具,用於探索和比較不同文字到影像模型中偏見的視覺表現。例如,平均擴散人臉工具可以讓你比較不同職業和不同模型的平均表徵——如下所示,這是 Stable Diffusion v1.4、v2 和 Dall-E 2 中“清潔工”的平均表徵。


Average faces for the 'janitor' profession, computed based on the outputs of different text to image models.

其他工具,如 人臉聚類工具色彩豐富度職業瀏覽器 工具,允許使用者探索資料中的模式,並識別相似性和刻板印象,而無需歸屬標籤或身份特徵。事實上,重要的是要記住,生成的個人影像並非真實的人,而是人工創造物,因此重要的是不要將它們視為真實的人類。根據上下文和用例,像這樣的工具既可以用於敘事,也可以用於審計。

紅隊測試 (Red-teaming): “紅隊測試”包括透過提示 AI 模型並分析其結果來對其潛在的漏洞、偏見和弱點進行壓力測試。雖然在實踐中已用於評估語言模型 (包括我們參與的即將在 DEFCON 舉行的生成式 AI 紅隊測試活動),但目前還沒有成熟和系統化的方法來對 AI 模型進行紅隊測試,它仍然相對臨時。事實上,AI 模型中存在如此多潛在的失敗模式和偏見,以至於很難全部預見到,而生成模型的隨機性使得重現失敗案例變得困難。紅隊測試為模型侷限性提供了可操作的見解,並可用於增加防護措施和記錄模型侷限性。目前沒有紅隊測試的基準或排行榜,這凸顯了在開源紅隊測試資源方面需要更多的工作。 Anthropic 的紅隊測試資料集是唯一開源的紅隊測試提示資源,但僅限於英文自然語言文字。

評估和記錄偏見: 在 Hugging Face,我們大力倡導模型卡和其他形式的文件 (例如,資料表、README 檔案等)。對於文字到影像 (以及其他多模態) 模型,使用上述探索工具和紅隊測試工作所做的探索結果可以與模型檢查點和權重一起分享。問題之一是,我們目前沒有用於衡量多模態模型 (特別是文字到影像生成系統) 中偏見的標準基準或資料集,但隨著社群在這方面開展更多工作,可以在模型文件中並行報告不同的偏見指標。

價值觀與偏見

上面列出的所有方法都是檢測和理解影像生成模型中嵌入的偏見的一部分。但是我們如何積極地與它們互動呢?

一種方法是開發新模型,以我們希望社會成為的樣子來呈現社會。這意味著建立的 AI 系統不僅模仿我們資料中的模式,而且積極推廣更公平、公正的觀點。然而,這種方法提出了一個關鍵問題:我們正在將誰的價值觀程式設計到這些模型中?價值觀因文化、社會和個人而異,這使得在 AI 模型中定義一個“理想”社會應該是什麼樣子成為一項複雜的任務。這個問題確實複雜且多面。如果我們避免在 AI 模型中重現現有的社會偏見,我們將面臨定義一個“理想”社會表徵的挑戰。社會不是一個靜態的實體,而是一個動態且不斷變化的結構。那麼,AI 模型是否應該隨著時間的推移適應社會規範和價值觀的變化?如果需要,我們如何確保這些轉變真正代表社會中的所有群體,特別是那些經常被低估的群體?

此外,正如我們在之前的通訊中提到的,沒有單一的方法來開發機器學習系統,開發和部署過程中的任何步驟都可以提供解決偏見的機會,從一開始就包括誰,到定義任務,到管理資料集,訓練模型等等。這也適用於多模態模型以及它們最終在社會中部署或產品化的方式,因為多模態模型中偏見的後果將取決於其下游用途。例如,如果一個模型在人機協作的環境中用於圖形設計 (例如由 RunwayML 建立的那些),使用者有許多機會檢測和糾正偏見,例如透過更改提示或生成選項。然而,如果一個模型被用作幫助法醫藝術家建立潛在嫌疑人警察素描的工具的一部分 (見下圖),那麼風險就高得多,因為這可能在高風險環境中強化刻板印象和種族偏見。


Forensic AI Sketch artist tool developed using Dall-E 2.

其他更新

我們還在道德和社會的其他方面繼續開展工作,包括

  • 內容稽核
    • 我們對我們的內容政策進行了重大更新。自上次更新以來已近一年,Hugging Face 社群在此期間大幅增長,所以我們覺得是時候了。在這次更新中,我們強調同意是 Hugging Face 的核心價值觀之一。要了解更多關於我們思考過程的資訊,請檢視公告部落格
  • AI 問責政策
    • 我們向 NTIA 提交了關於AI 問責政策徵求意見的回應,其中我們強調了文件和透明度機制的重要性,以及利用開放協作和促進外部利益相關者參與的必要性。您可以在我們的部落格文章中找到我們回應的摘要和完整文件的連結!

結束語

正如您從我們上面的討論中可以看出的,檢測和處理多模態模型 (如文字到影像模型) 中的偏見和價值觀問題,在很大程度上仍然是一個懸而未決的問題。除了上面引用的工作外,我們還與整個社群就這些問題進行互動——我們最近在 FAccT 會議上共同領導了一場關於該主題的 CRAFT 會議,並繼續在此主題上進行以資料和模型為中心的研究。我們特別興奮探索的一個方向是更深入地探究注入文字到影像模型中的價值觀及其所代表的含義 (敬請期待!)。

社群

註冊登入 以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.