社群計算機視覺課程文件
引言
並獲得增強的文件體驗
開始使用
引言
歡迎來到計算機視覺倫理與偏見單元的引言章節。本章將為我們稍後在本單元中遇到的許多重要概念奠定基礎。在本章中,我們將:
- 以倫理和偏見為背景,結合例項探討熱門的ImageNet Roulette案例研究。
- 探討它可能對人們和特定群體產生的影響。
- 審視該實驗的後果。
- ImageNet團隊為解決和減輕這些問題所做的努力。
- 用關於案例研究的一些問題結束本章,併為後續章節奠定基礎。
那麼,讓我們深入探討吧 🤗
ImageNet Roulette:分類偏見案例研究
想象一下,你週日上午醒來,玩著手機。你偶然發現了一個應用程式,它會嘗試在你上傳不同的圖片或自拍時返回諷刺有趣的標籤。你不介意找點樂子,所以你上傳了一張自拍嘗試這個應用程式,結果令你震驚的是,它返回了一個令人不安的標籤。它將你標記為犯罪嫌疑人(這種犯罪也可能是高度危險和令人髮指的)。你還在社交媒體上看到不同的人使用同一個應用程式釋出帶有煽動性標籤的帖子,增加了種族和性別歧視的可能性。其中一些標籤可能意味著一個人是罪犯,一個人具有與其種族相關的特定面部特徵,或者一個人的血統。這個應用程式經常返回非常冒犯的標籤,可能會損害個人利益並針對特定人群。應用程式中存在各種各樣的標籤,它們可能根據宗教、種族、性別或年齡冒犯人們,你對此感到震驚和困惑。
人工智慧讓我們的生活更輕鬆舒適,但很多時候,如果人工智慧沒有得到有效監管,它可能會給人們的生活帶來混亂。人類應該更加包容,並意識到他人的需求和偏好。在開發和部署人工智慧模型時,必須融入並體現這些人類價值觀。人工智慧模型不應制造負面情緒,也不應試圖煽動任何人反對某個群體。
ImageNet 簡介:用於目標識別的大規模資料集
ImageNet 是一個大規模資料集,旨在進行大規模目標識別基準測試。其目標是繪製出整個物件世界,使我們周圍的機器在場景理解方面變得更智慧,而人類在這方面做得更好。這個資料集是同類中最早嘗試建立大規模目標識別資料集的嘗試之一。
ImageNet 團隊開始從網際網路上的各種來源抓取影像資料。最初的資料集包含約 14,197,122 張影像和 21,841 個類別;這被稱為 ImageNet-21K,反映了約 21K 個類別。標註工作透過亞馬遜土耳其機器人進行眾包。該資料集的一個較小子集 ImageNet-1K 包含 1,281,167 張訓練影像、50,000 張驗證影像和 100,000 張測試影像,共 1000 個類別,它被用作流行的 ImageNet 大規模視覺識別挑戰賽 (ILSVRC) 的基礎。ILSVRC 成為許多有抱負的計算機視覺公司和實驗室超越以前的目標準確標註方法,並在競爭中取得成功的舞臺。ImageNet 的結構基於 WordNet,這是一個由普林斯頓大學開發的單詞分類資料庫。
ImageNet Roulette 🃏 的動機
現在,讓我們談談我們之前討論過的那個應用程式。幾年前,這個應用程式作為一款網路應用程式存在於網際網路上。這是一個被稱為 ImageNet Roulette 的有意實驗,至今仍是 AI 模型如果訓練資料沒有經過仔細指導準備就可能出錯的最受歡迎案例之一。這個專案由藝術家 Trevor Paglen 和研究員 Kate Crawford 開發。他們根據資料集中“人物”類別下的 2,833 個子類別訓練了他們的模型。
該模型使用 Caffe 在“人物”類別中的影像和標籤上進行訓練。該應用程式會提示使用者上傳影像,然後人臉檢測器會檢測影像中的人臉。檢測到的人臉隨後被髮送到 Caffe 模型進行分類。最後,該應用程式返回一個帶有檢測到的人臉周圍邊界框的影像以及 Caffe 模型預測的標籤。
ImageNet Roulette 的主要動機是展示在對人進行分類時固有的偏見。它僅使用 ImageNet 資料集中的“人物”類別(如前所述)進行訓練。那麼,出了什麼問題呢?對不同影像的推斷反映出在許多層面上都是有害和挑釁的。該系統中偏見的最大原因是 ImageNet 中已有的類別。這些類別反映出它們在標註影像時是多麼荒謬、冒犯和挑釁。一些標籤(在將其初始標籤改寫以避免觸發後)將意味著吸毒者、品格可疑者、反對特定群體的人、不成功的人、失敗者等等。
ImageNet 中固有的各種標籤根據性別、種族、職業等對人進行分類。那麼,問題出在哪裡呢?這些標籤都源自 WordNet 的結構。這正是偏見潛入這個模型的地方(由於忽略了資料準備過程,不相關的影像被批次下載)。我們將在本章的後面探討 ImageNet 團隊提到的原因。
您願意讓這樣的模型未經任何檢查就部署嗎?如果部署了,您是否願意讓您周圍的人稱您為不成功的人併發布病毒式帖子?這就是在準備資料集時出錯和被忽視的地方。
ImageNet Roulette 的影響
讓我們探討一下這個實驗產生的影響:
- 它揭示了 ImageNet 標註中根深蒂固的偏見,這些偏見通常帶有冒犯性和刻板印象,尤其是在種族和性別方面。
- 該實驗還質疑了用於訓練人工智慧模型的資料集的完整性,特別是在 ImageNet 資料集中。它強調了在建立和標註訓練資料時需要更嚴格的審查和倫理考量。
- 令人震驚的結果促使了圍繞人工智慧倫理考量的討論。它促使人工智慧社群進行更廣泛的對話,討論確保公平公正的訓練資料的責任,強調了倫理資料實踐的必要性。一般來說,如果此類模型在實際應用中部署,它可能對不同人群和目標群體產生令人擔憂的影響。
ImageNet Roulette 的後果
最初,“人物”類別並未引起注意,因為 ImageNet 是一個目標識別基準。但在此實驗之後,社群發生了一些關鍵變化。在此案例研究中,建立者能夠展示 ImageNet 中固有的偏見問題(直到 2018 年左右,一些研究開始出現時才浮出水面)。幾天後,ImageNet 釋出了一份研究論文,總結了他們由 NSF 資助的為期一年的專案。自 2019 年 1 月起,完整的 ImageNet 資料集已停用下載,而 1000 個類別的 ImageNet-1K 資料集未受影響。ImageNet 團隊提供了一些根本問題和處理方法(令人驚訝的是,ImageNet Roulette 在他們的報告中並未提及)。
問題 1:WordNet 中冒犯性的同義詞集 WordNet 包含許多不適合作為影像標籤的冒犯性同義詞集。不知何故,許多這些標籤悄悄進入 ImageNet 並被包含在內。
解決方案: a. ImageNet 任命了一組內部人工標註員,將同義詞集分為三類:冒犯性、敏感性和安全。冒犯性標籤是種族或性別歧視的侮辱性詞語,敏感性標籤不冒犯但根據上下文可能引起冒犯,安全標籤則不冒犯。b. 在人物類別中的 2,832 個同義詞集中,識別出 1,593 個不安全同義詞集(冒犯性和敏感性),其餘 1,239 個同義詞集暫時被認為是安全的。c. 透過刪除不安全的同義詞集,準備了一個新版本的 ImageNet,總共刪除了大約 600,000 張影像。
問題 2:不可影像化概念 某些同義詞集可能不具冒犯性,但將其包含在整個資料集中也不合邏輯。例如,我們無法將影像中的人歸類為慈善家。同樣,可能有很多同義詞集無法透過影像進行視覺捕捉。
解決方案
a. 對於此類概念,我們要求多名工作人員對 2,394 個人物同義詞集(安全 + 敏感)進行評分。b. 評分基於同義詞集喚起心理影像的難易程度,從 1 到 5 分,1 分表示非常難,5 分表示非常容易。c. 中位數評分為 2.36,大約 219 個同義詞集的評分高於 4 分,影像可影像性非常低的影像被移除。
問題 3:影像多樣性 ImageNet 中的許多影像可能代表性不足。例如,搜尋特定職業的影像可能會返回與現實世界不同的性別比例。建築工人或黑幫的影像可能更傾向於特定性別或種族。不僅在搜尋過程中,在標註和資料清理過程中,標註員也可能傾向於以一種已經社會刻板印象的方式響應特定類別。解決方案: a. 為了減輕搜尋和標註中的此類刻板印象,影像應具有更高的視覺喚起性(視覺上更強烈)。b. ImageNet 團隊對最易影像化的屬性(如性別、膚色和年齡)進行了人口統計學分析。c. 經過此分析,透過刪除同義詞集中過度代表的屬性來平衡資料集,從而實現更均勻的性別、膚色和年齡平衡。
問題 4:隱私問題 儘管分類存在一些固有偏差,但為了保護個人身份,隱私同樣是一個重要因素。如果實驗中的這些分類病毒式傳播,將對人們的生活和整體福祉產生巨大影響。為確保這一點,人工智慧模型不僅應公平,還應保護受試者的隱私。
解決方案
a. ImageNet-1K 資料集包含 3 個人物類別。我們進行了單獨的人臉標註,並建立了資料集的人臉模糊版本。b. 對這些影像應用了影像混淆技術,如模糊和馬賽克。c. 結果表明,這些影像在目標識別任務的基準測試中,準確性下降極小,並且適用於訓練具有隱私意識的視覺分類器。
💡有關 ImageNet Roulette 實驗的更多詳細資訊,您可以閱讀 ImageNet Roulette 的文章。該實驗釋出在Excavating AI上,其中詳細討論了這一點。要了解 ImageNet 在緩解這些問題方面的立場和研究,您可以檢視他們提交的完整技術報告此處。
結論
在後面的章節中,我們也將遵循相同的案例研究流程,並嘗試回答一些基本問題。儘管我們將討論一般的人工智慧模型,但我們的重點將主要放在計算機視覺模型及其相關的倫理問題上。
- 探索,案例研究或實驗究竟是關於什麼的?
- 哪裡出了問題或者可能出問題?
- 對目標群體的影響以及其他影響(影響評估)是什麼?
- 如何使用指標評估計算機視覺模型中的偏見?
- 如何緩解這些問題,以實現計算機視覺模型的公平和倫理發展。
- 社群和其他目標群體在促進和培養開放對話中的作用。
總之,在整個單元中,我們將遇到各種與倫理和偏見相關的案例研究,將評估偏見並思考如果偏見未解決可能產生的影響。我們還將探索各種策略來減輕偏見,並使計算機視覺模型安全且具有包容性,以供使用。
< > 在 GitHub 上更新