政策問題部落格1:為NAIAC專家組提供關於AI資料透明度的建議📚🔍⚖️
背景: 我最近受邀參加了國家AI諮詢委員會組織的一個關於資料透明度標準的專家組會議。提供一個最低通用標準與概述最佳實踐有所不同,需要滿足不同的要求。在開場白中,我主張一個最低標準,即首先建議將AI系統的開發資料集和資料來源的交叉點視為最適當的粒度級別。要求關於哪些資料來源進入哪些資料集的最低資訊,不足以支援完全的問責制,但對於其他監管和治理機制的有效性是必要的。
有意義的資料披露的最低標準
AI系統首先是其開發資料集的表示,這些資料集定義了模型的優勢、風險和劣勢範圍。然而,這些資料集目前在流行的AI系統中被討論得最少,在提議的監管方法中也最不被重視。這種可見性的缺失可能會阻礙使AI治理可持續、對技術變化具有魯棒性以及包含AI開發者以外的視角的努力。
我們有共同的責任將AI資料集重新置於討論的中心。最近的AI討論主要集中在對開發日益令人印象深刻的系統所不可或缺的技術創新,這些系統來自於越來越大的資料集。雖然這些貢獻確實值得關注,但監管機構也需要考慮這些系統對社會的影響最終是由它們所利用的資料屬性決定的;從資料所代表的領域、人物和視角,到其資料主體(包括隱私、勞動、公平競爭和非歧視權)的各種權利。
還需要重新關注資料,因為AI系統評估的科學仍處於早期階段。我們尚未擁有能夠實現完全基於模型效能的監管的社會影響或安全基準,而且模型級別的測試是否能捕捉到這類資料驅動技術的所有社會風險,仍然是一個懸而未決的問題。即使在模型評估提供了準確資訊的情況下,資料汙染等普遍問題在沒有資料集資訊的情況下也會大大降低其可靠性。
因此,我們許多人一直在主張採取幾種互補的資料透明度方法。資料集文件,如資料表和資料宣告,由開發者編寫,描述了塑造AI系統行為的“基本特徵”,例如人口統計資訊。資料測量透過提供包含多達數萬億個示例的資料集的定量摘要來補充此文件,其中手動檢查不足以理解更廣泛的社會和技術動態。互動式資料集視覺化在提出問題方面還具有額外作用,可以賦能特定的利益相關者群體以與其利益相關並反映其科學專業知識的方式審視資料集。最後,直接訪問開發資料集可以對訓練動態、透明度工具以及對風險緩解策略有效性的審查進行重要研究。
透過適當的治理,這些實踐無疑是有益的,並且對大多數開發者,特別是大公司來說,成本微乎其微。它們都應受到強烈鼓勵,並且對於具有更敏感用例的AI系統是必需的。它們也很大程度上依賴於上下文,並且作為包含開放和協作開發設定的通用要求將難以操作化。
那麼,一個更務實的最低有意義的資料透明度要求是什麼樣的呢?在此背景下定義“最低”,讓我們看看外部研究人員和調查人員需要哪些必要資訊,才能評估資料使用的社會和技術風險,無論開發者採用何種最佳實踐。
首先,為此目的的資料標準需要包含一個系統開發中所涉及資料集的列表,包括其大小和用途。從超大型預訓練資料集到偏好和微調資料以及評估基準,不同資料型別在各種開發資料集中的包含將具有不同的技術和社會影響。
其次,最低資料標準需要包含一個用於整理相關開發資料集的各種資料來源的列表。這些資料可能來自非常多樣化的來源,包括開發者與另一個組織之間的許可協議、公司透過服務產品收集的使用者資料、透過網路爬取獲得的公開資料,以及由開發者直接建立的資料。
瞭解這些資料來源是什麼,開發者是在何種條件下獲取它們的,以及它們對各種開發資料集的貢獻可能不足以完全指導重要決策,但它是使外部利益相關者能夠識別潛在問題所必需的——例如,透過檢視網路爬取中最常出現領域中編碼的偏差,在許可協議中發現市場集中化的警示訊號,以及檢查收集AI訓練資料的服務的使用條款。概括地說,可以總結為以下幾點。對於任何AI系統,我們需要問:
- 使用了哪些資料集,其大小和用途是什麼?
- 提供這些資料集的資料來源是在何處以及在何種條件下獲取的?
同樣,如果不進行大量額外工作,這種標準本身不足以保證AI系統的良好治理——但它將為確保研究人員、記者和監管機構在嘗試就重要主題做出知情決策時不會面臨不可逾越的障礙奠定堅實基礎。此外,它不會損害個人隱私,甚至不會損害本宣告開頭概述的技術和硬體貢獻所涵蓋的商業秘密。
當然,超越這個最低標準很可能是有價值的。開發資料集和原始資料來源的交叉點將提供一個理想的基礎,以建立提供全面資料表的要求。明確說明資料收集或許可如何考慮資料主體的選擇退出偏好,也將大大有助於使技術更加註重同意並符合國際要求。最後,它將根據需要提供機會,以靈活的方式進行資料集測量、視覺化和訪問,從而利用外部研究人員的興趣和專業知識。
我們確實需要推進透明度要求,而一個廣泛適用的最低有意義標準似乎是向前邁出的實質性一步,儘管這仍將需要大量的額外投資,以確保AI系統確實是為了所有利益相關者的利益而開發的。