📚 人工智慧訓練資料透明度:工具、趨勢和政策建議 🗳️

社群文章 釋出於2023年12月5日

TL;DR

近年來,機器學習(ML)技術已變得無處不在,從支援各行業自動化決策的無數專用模型,到像ChatGPT這樣被宣傳為智慧“通用系統”的產品一夜之間取得的成功。新的監管框架需要應對這種新正規化帶來的挑戰,這種正規化刺激了全球範圍內對人工智慧的重新監管努力。然而,儘管訓練資料在塑造技術方面至關重要,但近期提案中的透明度要求範圍仍然有限;這阻礙了監管保障措施隨著訓練方法的演變而保持相關性的能力,阻礙了個人確保其權利得到尊重的能力,也阻礙了開放科學和開發在實現新技術民主治理中的作用。與此同時,我們看到開發者的資料透明度呈下降趨勢,特別是對於為機器學習商業應用開發的模型。

為了支援人工智慧價值鏈的更大問責制,並促進尊重既定權利的技術發展,我們需要最低限度的有意義的公共透明度標準來支援有效的人工智慧監管。這些標準應足夠詳細,以確保研究人員和民間社會有足夠的途徑獲取人工智慧系統訓練資料集的相關方面,以支援其知情的治理,並在開發者的需求和提供潛在人工智慧危害補救措施的能力之間取得更可持續的平衡。此外,認識到開放研究在提供對技術足夠的共同理解以支援不同利益相關者之間討論方面的基本作用,這些要求應伴隨著支援開發和共享開放的大規模機器學習訓練資料集,形式是進一步明確和操作指南,說明管理研究和開發中公開可訪問資料使用的法律制度——例如歐盟CDSM文字和資料探勘例外中的退出要求。

目錄

引言

大多數當前的人工智慧系統都是在機器學習(ML)正規化下構建的,其中模型主要透過接觸大量訓練資料點並根據這些資料中的訊號更新其權重來“學習”。簡而言之,人工智慧系統首先是其訓練資料集的表示;這使得理解這些資料集中的內容對於管理模型至關重要。在此設定中,資料使用的各種方式也引發了關於資料主體財產、隱私和使用者權利的問題;回答這些問題將需要最低限度的透明度,以瞭解資料如何以及在何處使用和管理。在這種情況下,更高的資料透明度支援更好的治理,並促進更可靠地尊重人們權利的技術發展。然而,在實踐中,模型開發者提供了關於他們使用的資料的不同程度的資訊,從提供直接訪問和支援非技術利益相關者的工具,到完全不提供關於訓練資料集的任何資訊。

處於這個保守範圍的開發者可能會將訓練資料的組成視為競爭優勢,害怕因資料使用的合法性不確定而面臨法律風險,或者僅僅選擇不優先考慮共享和記錄資料集所需的工作——特別是考慮到開發能夠有意義地描述數TB資料並以可訪問的方式呈現的工具仍然是一個開放的研究領域。雖然這些決定在沒有法律透明度要求的情況下可能對公司本身有意義,但它們確實造成了整個技術的問責差距,如果更多的開發者開始效仿,這種差距可能會進一步擴大。就目前而言,致力於揭示行業範圍問題的記者和學者不得不退而求其次,分析由更開放的參與者共享的資料集,作為對那些透明度較低的系統資料集的必要但不充分的近似(例如,《華盛頓郵報》對C4資料集的分析,而不是實際的ChatGPT語料庫)。

透過支援大型資料集的開放共享以用於研究和開發目的,併為任何開發者使用涉及外部權利人資料的情況制定最低有意義的透明度標準,監管可以在幫助人工智慧領域實現更可持續的平衡方面發揮作用。共享整個訓練資料集可能並非總是可行或可取,但近年來在機器學習資料治理、文件和視覺化方面的大量研究支援了開發一系列工具,這些工具可以在不完全釋出的情況下提供關於大型語料庫的足夠有意義的資訊。本備忘錄回顧了最近的大型機器學習模型開發者如何選擇利用這些工具(或不利用)以提供不同程度的訓練資料洞察,從而幫助確定在各種情況下什麼可以構成最低透明度標準。

資料透明度焦點:需要什麼?

為了界定什麼是最低限度的有意義的透明度,我們可以首先審查一些現有和擬議的法規可能如何要求提供有關訓練資料集組成的具體資訊,以便在人工智慧技術背景下強制執行。例如:

  • 尊重被遺忘權:《通用資料保護條例》(GDPR)正式規定了歐盟公民刪除或更正其個人資料或相關資訊的權利。雖然從訓練模型中隨機和上下文編碼的資訊中進行編輯仍然是一個開放的研究問題,但要求從訓練資料集的當前和未來版本中刪除資訊為未來模型或模型的未來版本提供了一條更可靠的途徑來實現這一權利。然而,為了提出這樣的請求,資料主體需要知道開發者在整理訓練資料集時收集了哪些關於他們的相關資訊。
  • 尊重TDM豁免選擇退出:歐盟《數字單一市場版權指令》規定了一項文字和資料探勘制度,允許開發者輕鬆使用公開可訪問的媒體,包括受版權保護的媒體,只要他們遵守以適當的機器可讀格式表達的選擇退出。然而,模型開發者是否以及如何遵守這些選擇退出存在可見性不足的問題,這阻礙了內容創作者投資於技術工具和開發此類機器可讀格式的新方法。
  • 在資料集層面評估社會偏見以理解責任:整合到自動決策系統中的機器學習模型可能加劇歧視,違反保障不歧視和同等待遇的法律。鑑於當前人工智慧系統的性質,特別是大型機器學習模型產生結果的不透明性,像人工智慧責任指令這樣的提案,使得當人工智慧系統的開發者或部署者未能充分履行注意義務時,更容易追究其責任。對於影響系統重現或加劇歧視性結果可能性的社會偏見,評估這種注意義務需要評估從資料集整理到人工智慧產品部署階段所做的選擇。
  • 評估評估的可靠性:最近的監管努力旨在使人工智慧系統更安全、更可靠。特別是,人工智慧系統的使用者需要能夠評估其在各種任務上的效能,以評估它們是否可以安全地應用於其環境中。雖然開發者通常會以基準測試資料的形式提供有限的部署上下文之外的效能評估,但最近的研究表明,開發者提供的一些資料因“資料汙染”問題而被誇大,即由於所選的評估設定與訓練資料過於接近,導致基準測試高估了模型的效能。對於模型能力的每一次新評估,都需要檢查這種重疊。

資料透明度模型

足夠的資料透明度,以滿足上述所有要求,可以透過一系列工具和方法來實現。在此,我們重點關注促進訓練資料集可復現性和直接訪問,並提供文件和視覺化以呈現其組成洞察的開發選擇。

可復現性和直接訪問

直接訪問機器學習資料集對於理解人工智慧系統的主要特性和支援第三方研究人員、記者和其他調查人員的調查至關重要——包括關於由規模引入的社會偏見、由常見質量毒性過濾方法引入的偏見,以及記者調查揭示的潛在隱私智慧財產權問題。公共訪問和可復現資料集特別有價值,因為它們使得在通常超出單個團隊調查範圍的問題上進行廣泛協作成為可能,並且因為它們允許具有與開發者不同視角(通常是不同優先事項)的外部利益相關者以與他們更相關的方式提出這些問題。

可復現性和訪問可以採取不同的形式。提供包含所有用於編譯資料集的處理步驟和工具的程式碼庫可能足以讓資源充足的外部參與者獲得與原始訓練資料集非常接近的資料集。這是Google的C4和mC4資料集的最初發布方法,這些是包含數TB文字的基於網路的資料集,尤其用於訓練Google的T5模型。透過提供指令碼而不是即用型資料集,開發者提供了足夠的資訊來研究資料,而無需自己重新分發;然而,重構資料集通常需要大量的計算資源,這可能不是所有相關利益相關者都能獲得的。或者,託管處理過的版本的資料集消除了這一入門障礙,但可能需要更精細的治理。非營利組織Eleuther.AI的The Pile資料集是託管資料集的一個例子,它支援了近期許多關於大型語言模型的研究。在實踐中,大多數開放的、網路規模的資料集(尤其是多模態資料集)都介於兩者之間,直接託管部分資料和元資料,並提供程式碼或方法來獲取其餘部分。例如,用於訓練Stable Diffusion模型的LAION多模態資料集提供了與影像URL對齊的文字資料——將實際影像的檢索留給潛在的資料集使用者。

為了最好地支援監管和調查工作,資料集應該對任何具有相關專業知識的利益相關者(特別是關於人工智慧系統的部署和社會背景的專家)開放。雖然在開放許可(如知識共享許可)下公開發布資料集通常是實現這一目標最直接的方式,但開發者也可以為他們的資料集採用更有針對性的治理模型——例如,完整的ROOTS語料庫可以根據特定的研究需求按需提供,而The Stack資料集則要求使用者保持其版本最新,以傳播資料主體的退出請求

image/png

文件和視覺化

如上所述,直接訪問對於能夠對人工智慧系統及其資料集進行新研究的利益相關者,以及尋求因資料濫用而獲得補償的權利持有人最為相關。對於更廣泛的受眾,關於機器學習資料集的見解也可以以更直接可訪問的格式提供,透過文件和視覺化工具來告知使用者和監管機構。

機器學習資料集的文件,如資料宣告資料表資料營養標籤資料集卡片專門的研究論文,都為資料集策展人提供了交流訓練資料集“基本特徵”的機會,這些特徵是理解其支援的人工智慧系統行為所必需的,並且已被證明有助於開發者處理倫理問題。此類文件的常見要求包括:資料的來源和構成資料集中所代表的人員的人口統計資訊描述性統計資料(例如單個數據項的數量或大小)、資料集的原始目的,以及建立資料集所遵循的處理步驟的高層描述。充分的文件可以作為資料集的廣泛可訪問的首次介紹,或者作為幫助部署者評估系統是否適合其目的以及何時不適合的方式。

image/png image/png

資料表是常用的標準之一,伴隨著DeepMind的Gopher和Chinchilla模型、Google的第一個PaLM模型以及TTIUAE的Falcon模型的釋出或公告。然而,儘管這些文件是開發者為達到最低透明度標準所做的可喜努力,但需要注意的是,單一文件呈現包含數百萬到數萬億文件的語料庫的有意義和可操作資訊的能力固有地受到限制。在這種規模限制下,理解如何從資料集文件中獲取最大價值將需要進一步投資於機器學習資料測量不斷發展領域——以及對開放資料集和訓練模型的訪問以支援這項研究。以下示例說明了透過靜態文件為最近的網路規模資料集提供的資訊範圍。此列表旨在說明而非詳盡。

  • 資料集論文:側重於描述資料集建立過程和結果的論文通常包含大量關於重要處理步驟和完整資料集分析的資訊。它們由原始資料集策展人或在原始策展人釋出資料集後由其他研究人員撰寫。
  • 模型論文中的資料集分析:描述新模型的研究論文也可能提供關於其訓練資料的有益統計資訊。這些資訊包括:網路爬取資料集中的頂級域名、資料集中代表的主題、長度統計、偏見分析(例如透過性別代詞計數)等。
  • 標準化格式:資料表、資料宣告、資料集卡片和資料營養標籤側重於以更結構化和標準化的方式提供關於機器學習資料集的重要資訊
    • The Pile 資料表
      • 值得注意的是,The Pile 為其每個主要組成部分填寫了一份資料表,而不是為整個語料庫填寫一份,從而提供了更詳細的資訊
    • LAION (草案) 資料營養標籤
    • 德國手語語料庫資料宣告
    • OSCAR多語言網路語料庫資料集卡片

對大型訓練資料集進行互動式視覺化可以補充靜態文件,並幫助彌合靜態文件和文件化構件之間的規模差距。許多需要對訓練資料集提出的最緊迫問題都是高度情境化的,需要額外的處理才能做出與特定用例相關的評估。透過建立廣泛可訪問的介面,允許使用者與訓練資料集進行受控互動,開發者可以向利益相關者提供與他們特定需求相關的資訊,而無需釋出完整的底層資料。以下示例展示瞭如何利用此類視覺化和探索介面處理最近的大規模機器學習資料集:

  • Hugging Face資料測量工具提供了對流行資料集(包括C4網路語料庫)的廣泛統計目錄的訪問。特別是,nPMI部分有助於根據使用者提供的錨點揭示訓練資料中的社會偏見,提供比單一表格更完整的畫面。
  • Nomic.ai開發的資料集地圖或 Atlas)利用機器學習系統計算的資料嵌入來幫助使用者瀏覽非常大的資料集,提供主題的高階檢視和具體的說明性示例。例如,OBELICS資料集是一個網路規模的多模態資料集,包含對齊的文字和影像,可以透過這樣的資料集地圖進行探索
  • 在訓練資料集上託管搜尋索引可以為需要查詢資料集中特定文字或媒體存在情況的使用者提供有價值的見解,並支援對在資料集上訓練的人工智慧系統進行廣泛的研究ROOTS 語料庫搜尋工具向用戶顯示資料集中相關的片段,其中敏感資訊已進行編輯。GAEA 探索器將此搜尋擴充套件到 The Pile、C4 和 LAION 資料集中的文字。LAION 資料集也隨影像索引發布,允許使用者查詢語料庫中與描述匹配的所有影像。
  • 成員測試是一類特殊的工具,可以支援治理和合規性。例如,Stack 程式碼資料集的資料畫像可幫助使用者識別LLM生成軟體程式碼字串中哪些部分存在於訓練資料集中。開發者還可以利用元資料來幫助使用者檢查他們的作品是否被包含在內,從而支援權利持有人提出的退出請求

image/png image/png

資料透明度趨勢

前述段落闡明瞭開發者在各種限制下,為他們建立的技術提供有意義的資料透明度所能利用的一系列方法。瞭解如何最好地描述包含數十億到數萬億示例的資料集仍然是一個新興的研究領域,但自大型語言模型和其他類似規模人工智慧系統出現以來的幾年裡,已經提供了寶貴的透明度工具,將有助於支援現有和擬議法規的實施。例如,它們能夠沿著開發鏈分析社會偏見,以理解擬議的AILD下歧視性結果的責任,有助於滿足歐盟人工智慧法案最新版本中的版權披露要求,提供在CDSM TDM豁免制度下實施和驗證資料主體退出請求的手段,並支援GDPR合規和執行等等。

然而,資料透明度面臨的挑戰不僅僅是技術問題,日益巧妙的文件和視覺化工具的前景被許多知名人工智慧開發者在釋出選擇上令人擔憂的趨勢所抵消。Google/DeepMind模型釋出從T5模型的完全可復現的C4和mC4資料集(2019年),到描述DeepMind Gopher(2021年)和第一個Google PaLM(2022年)系統的論文中提供資料表和一些高層資料文件,再到PaLM v2公告(2023年)中的一句話。OpenAI在GPTGPT-4以及Dall-EDall-E 3的釋出中也遵循了類似的趨勢,對這兩個系列中最新系統的預訓練資訊全部保密。新公司Anthropic沒有提供關於其Claude大型語言模型訓練資料的任何公開資訊,甚至Meta也在其Llama-2釋出中限制了資訊披露量,僅限於一段描述和一頁額外的安全和偏見分析——此前其在訓練第一個Llama模型時使用books3資料集被版權訴訟提及。

該領域大型參與者的這一趨勢,與一些小型公司和非營利組織在更開放的環境下構建替代模型所做的工作形成鮮明對比。BigScienceBigCode專案以及非營利組織Eleuther.AI釋出的基座模型,充分利用了上述所有工具來支援廣泛的資料透明度和治理。MosaicML的MPT模型、TTIUAE的Falcon LLM系列以及Hugging Face的IDEFICS模型(DeepMind Flamingo的復現版)也使用公開可訪問和有文件記錄的資料集,並提供視覺化工具

支援不同開發模式的開放性和透明度對於促進人工智慧系統的可持續治理至關重要。為了實現這一目標,最低法律透明度要求應允許資料主體行使其權利,並明確管理機器學習中公開可用資料使用的法律制度——例如,透過關於CDSM TDM豁免制度的操作指南。

引用方式

@inproceedings{Hugging Face Community Blog,
  author    = {Yacine Jernite},
  title     = {Training Data Transparency in AI: Tools, Trends, and Policy Recommendations},
  booktitle = {Hugging Face Blog},
  year      = {2023}
}

社群

註冊登入以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.