歐盟《人工智慧法案》開源開發者指南
歐盟《人工智慧法案》(EU AI Act),作為全球首部關於人工智慧的綜合性法規,現已正式生效。它將對我們開發和使用 AI 的方式產生影響,包括開源社群。如果你是一名正在應對這一新環境的開源開發者,你可能想知道這對你的專案意味著什麼。本指南將重點圍繞開源開發,為你解析該法規的關鍵點,清晰介紹這項法規,並引導你使用可能有助於合規的工具。
免責宣告:本指南提供的資訊僅供參考,不應被視為任何形式的法律建議。
內容摘要:《人工智慧法案》可能適用於開源的 AI 系統和模型,具體規則取決於模型的型別及其釋出方式。在大多數情況下,義務包括提供清晰的文件、在部署時新增工具以披露模型資訊,以及遵守現有的版權和隱私規定。幸運的是,這些做法在開源領域已經很普遍,Hugging Face 提供了幫助你為合規做準備的工具,包括支援選擇退出(opt-out)流程和個人資料脫敏的工具。歡迎檢視模型卡片、資料集卡片、Gradio 水印、支援選擇退出機制的工具和個人資料脫敏工具、許可證等!
歐盟《人工智慧法案》是一項具有約束力的法規,旨在促進負責任的 AI。為此,它制定了一套與 AI 系統或模型可能帶來的風險水平相匹配的規則,同時致力於保護開放研究和支援中小企業 (SMEs)。作為一名開源開發者,你工作的許多方面不會受到直接影響——尤其是如果你已經養成了記錄系統和跟蹤資料來源的習慣。總的來說,你可以採取一些簡單的步驟來為合規做準備。
該法規將在未來兩年內逐步生效,其適用範圍廣泛,不僅限於歐盟內部。如果你是歐盟以外的開源開發者,但你的 AI 系統或模型在歐盟境內提供或對歐盟境內的人們產生影響,那麼它們也受該法案的管轄。
🤗 適用範圍
該法規在 AI 技術棧的不同層面發揮作用,這意味著如果你是提供者(包括開發者)、部署者、分發者等,以及你正在開發 AI 模型還是系統,你所承擔的義務會有所不同。
模型:只有通用人工智慧(GPAI)模型受到直接監管。GPAI 模型是指使用大量資料訓練,展現出顯著通用性,能執行廣泛任務,並可用於系統和應用的模型。一個例子就是大型語言模型(LLM)。模型的修改或微調也需要遵守相關義務。 | 系統:能夠根據輸入進行推斷的系統。這通常表現為一個傳統的軟體棧,它利用一個或多個 AI 模型與輸入的數字表示進行連線。例如,與終端使用者互動的聊天機器人,它利用了 LLM,或託管在 Hugging Face Spaces 上的 Gradio 應用。 |
---|
在《人工智慧法案》中,規則的嚴格程度與 AI 系統或模型可能帶來的風險水平成正比。對於所有 AI 系統,風險可分為:
- 不可接受的風險:侵犯人權的系統,例如從網際網路或閉路電視錄影中抓取面部影像的 AI 系統。這些系統被禁止,不得投放市場。
- 高風險:可能對人們的安全或基本權利產生不利影響的系統,例如涉及關鍵基礎設施、基本服務、執法等領域的系統。這些系統在投放市場前需要遵循嚴格的合規步驟。
- 有限風險:與人直接互動並可能產生冒充、操控或欺騙風險的系統。這些系統需要滿足透明度要求。大多數生成式 AI 模型可以被整合到屬於這一類別的系統中。作為模型開發者,如果你的模型已經遵循了相關要求(例如提供充分的文件),那麼它們將更容易、也更有可能被整合到 AI 系統中。
- 微小風險:大多數不構成上述風險的系統。它們只需遵守現有的法律法規,不受《人工智慧法案》新增義務的約束。
對於通用人工智慧(GPAI)模型,還有一個稱為系統性風險的風險類別:指使用大量計算資源(目前定義為訓練所需算力超過 10^25 FLOPs)或具有高影響力能力的 GPAI 模型。根據斯坦福大學的一項研究,截至 2024 年 8 月,基於 Epoch 的估算,只有來自七家開發商(Google、Meta、OpenAI、Mistral、NVIDIA、ByteDance、Inflection)的八個模型(Gemini 1.0 Ultra、Llama 3.1-405B、GPT-4、Mistral Large、Nemotron-4 340B、MegaScale、Inflection-2、Inflection-2.5)會達到訓練算力至少為 10^25 FLOPs 的預設系統性風險標準。相關義務會因其是否開源而有所不同。
🤗 如何為合規做準備
本簡短指南的重點是有限風險的 AI 系統和開源非系統性風險的 GPAI 模型,這應涵蓋了 Hub 上公開的大部分內容。對於其他風險類別,請務必查閱可能適用的進一步義務。
針對有限風險 AI 系統
有限風險的 AI 系統與人(終端使用者)直接互動,可能產生冒充、操控或欺騙的風險。例如,生成文字的聊天機器人或文字到影像的生成器——這些工具也可能被用於製作虛假資訊材料或深度偽造內容 (deepfakes)。《人工智慧法案》旨在透過幫助普通終端使用者理解他們正在與 AI 系統互動來應對這些風險。目前,大多數 GPAI 模型不被認為具有系統性風險。對於有限風險的 AI 系統,無論其是否開源,都需遵守以下義務。
有限風險 AI 系統的開發者需要:
- 向用戶披露他們正在與 AI 系統互動,除非這一點顯而易見。請記住,終端使用者可能不具備與專家相同的技術理解力,因此你應該以清晰、詳盡的方式提供這些資訊。
- 標記合成內容:AI 生成的內容(如音訊、影像、影片、文字)必須以機器可讀的格式清晰地標記為人工生成或操控。現有工具如 Gradio 的內建水印功能可以幫助你滿足這些要求。
請注意,你不僅可能是 AI 系統的開發者,也可能是其“部署者”。AI 系統的部署者是指在其專業活動中使用 AI 系統的個人或公司。在這種情況下,你也需要遵守以下規定:
- 對於情感識別和生物識別系統:部署者必須告知個人這些系統的使用情況,並按照相關法規處理個人資料。
- 披露深度偽造和 AI 生成內容:部署者必須在使用 AI 生成內容時進行披露。當內容是藝術作品的一部分時,義務是在不影響體驗的前提下披露存在生成或操控的內容。
上述資訊需要使用清晰的語言提供,最遲在使用者首次與 AI 系統互動或接觸時提供。
負責實施《人工智慧法案》的 AI 辦公室將協助制定行為準則,提供檢測和標記人工生成內容的指南。這些準則目前正由行業和民間社會共同起草,預計於 2025 年 5 月釋出。相關義務將從 2026 年 8 月開始強制執行。
針對開源非系統性風險的通用 AI 模型
如果你正在開發不具有系統性風險的開源 GPAI 模型(例如 LLM),則以下義務適用。根據《人工智慧法案》,開源意味著“軟體和資料,包括模型,在自由和開源許可證下發布,允許它們被公開共享,並且使用者可以自由訪問、使用、修改和重新分發它們或其修改版本”。開發者可以從 Hub 上的開源許可證列表中選擇。請檢查所選許可證是否符合《人工智慧法案》對開源的定義。
對於非系統性風險的開源 GPAI 模型,義務如下:
- 根據 AI 辦公室提供的模板,起草並提供一份關於用於訓練 GPAI 模型內容的足夠詳細的摘要。
- 內容的詳細程度仍在討論中,但應相對全面。
- 實施一項政策以遵守歐盟關於版權及相關權利的法律,特別是遵守選擇退出(opt-outs)的規定。開發者需要確保他們有權使用受版權保護的材料,這可以透過獲得權利持有人的授權或適用版權例外和限制來獲得。其中一個例外是文字和資料探勘(TDM)例外,這是一種在此背景下廣泛用於檢索和分析內容的技術。然而,當權利持有人明確表示保留其作品用於這些目的的權利時——這被稱為“選擇退出”——TDM 例外通常不適用。在制定遵守《歐盟版權指令》的政策時,應尊重這些選擇退出,並限制或禁止使用受保護的材料。換句話說,如果你尊重作者選擇退出 AI 訓練的決定,那麼對受版權保護的材料進行訓練並不違法。
- 儘管關於如何以技術方式(尤其是在機器可讀格式中)表達選擇退出仍存在一些懸而未決的問題,但尊重網站 robots.txt 檔案中表達的資訊以及利用像 Spawning 的 API 這樣的工具是一個好的開始。
歐盟《人工智慧法案》還與現有的版權和個人資料法規相聯絡,例如《版權指令》和《資料保護條例》。為此,請參考 Hugging Face 整合的工具,這些工具支援更好的選擇退出機制和個人資料脫敏,並隨時關注法國國家資訊與自由委員會 (CNIL) 等歐洲和國家機構的建議。
Hugging Face 上的專案已經實現了理解和實施訓練資料選擇退出的形式,例如 BigCode 的Am I In The Stack 應用,以及為包含影像 URL 的資料集整合 Spawning 小部件。透過這些工具,創作者可以簡單地選擇不允許其受版權保護的材料用於 AI 訓練。隨著選擇退出流程的不斷發展,以幫助創作者有效告知公眾他們不希望其內容被用於 AI 訓練,這些工具在應對這些決定方面可以非常有效。
開發者可以依賴行為準則(目前正在制定中,預計於 2025 年 5 月前釋出)來證明其遵守了這些義務。
如果你以不符合《人工智慧法案》對開源標準的方式提供你的作品,則需遵守其他義務。
此外,請注意,如果某個 GPAI 模型滿足構成系統性風險的條件,其開發者必須通知歐盟委員會。在通知過程中,開發者可以論證其模型由於特定特性而不構成系統性風險。委員會將審查每項論證,並根據論證是否充分、考慮到模型的具體特性和能力來接受或拒絕該主張。如果委員會拒絕開發者的論證,該 GPAI 模型將被指定為具有系統性風險,並需要遵守進一步的義務,例如提供關於模型的技術文件,包括其訓練和測試過程以及評估結果。
針對 GPAI 模型的義務將從 2025 年 8 月開始強制執行。
🤗 參與其中
歐盟《人工智慧法案》的許多實際應用仍在透過公眾諮詢和工作組進行制定,其結果將決定該法案中旨在為中小企業和研究人員提供更順暢合規途徑的條款如何具體實施。如果你有興趣影響這一程序,現在是參與進來的好時機!
@misc{eu_ai_act_for_oss_developers,
author = {Bruna Trevelin and Lucie-Aimée Kaffee and Yacine Jernite},
title = {Open Source Developers Guide to the EU AI Act},
booktitle = {Hugging Face Blog},
year = {2024},
url = {},
doi = {}
}
感謝 Anna Tordjmann、Brigitte Tousignant、Chun Te Lee、Irene Solaiman、Clémentine Fourrier、Ann Huang、Benjamin Burtenshaw、Florent Daudens 的反饋、評論和建議。