OpenRAIL: 邁向開放和負責任的AI許可框架
開放與負責任的AI許可證("OpenRAIL")是AI專屬許可證,旨在開放AI構件的訪問、使用和分發,同時要求對後者負責任地使用。OpenRAIL許可證可以像當前的開源軟體許可證對程式碼和知識共享許可證對一般內容一樣,成為開放和負責任機器學習的基石:一種廣泛的社群許可工具。
近年來,機器學習和其他AI相關領域的進步蓬勃發展,部分歸功於資訊和通訊技術(ICT)領域開源文化的普及,這種文化已經滲透到機器學習研發的動態中。儘管開放作為該領域創新的核心價值帶來了諸多益處,但(近期不那麼)近期與機器學習模型開發和使用相關的倫理和社會經濟問題所引發的事件傳遞了一個明確的資訊:開放性還不夠。然而,封閉系統也不是答案,因為問題在公司私人AI開發過程的不透明性下依然存在。
開源許可證並非適用於所有情況
機器學習模型的訪問、開發和使用深受開源許可方案的影響。例如,機器學習開發者在透過附加官方開源許可證或其他開放軟體或內容許可證(如知識共享)來公開模型權重時,可能會口頭上稱之為“開源一個模型”。這就引出了一個問題:他們為什麼要這樣做?機器學習構件和原始碼真的那麼相似嗎?從技術角度來看,它們是否共享足夠多的特性,以至於為原始碼設計的私人治理機制(例如開源許可證)也應該管理機器學習模型的開發和使用?
大多數當前的模型開發者似乎都這樣認為,因為大多數公開發布的模型都帶有開源許可證(例如Apache 2.0)。例如,請參閱Hugging Face的模型中心以及Muñoz Ferrandis & Duque Lizarralde (2022)。
然而,經驗證據也告訴我們,對開源和/或自由軟體動態的僵化處理,以及對機器學習構件釋出中“自由0”的公理式信仰,正在造成機器學習模型使用中的社會倫理扭曲(參見Widder 等人 (2022))。簡單來說,開源許可證沒有考慮模型作為不同於軟體/原始碼的構件的技術性質和能力,因此不適合促使機器學習模型更負責任地使用(例如開源定義的第6條標準),另請參見Widder 等人 (2022);Moran (2021);Contractor 等人 (2020)。
如果致力於機器學習模型文件、透明度和道德使用的特定臨時實踐已經存在並日益完善(例如,模型卡片、評估基準),那麼開放許可實踐為何不應也適應機器學習模型所帶來的特定能力和挑戰呢?
同樣的問題也出現在商業和政府的機器學習許可實踐中。用Bowe & Martin (2022)的話來說:“Anduril Industries 的總法律顧問 Babak Siavoshy 問道,什麼樣的許可條款應該適用於一個為計算機視覺物件檢測私下開發的AI演算法,並將其用於軍事目標識別或威脅評估?無論是商業軟體許可還是標準的DFARS資料權利條款都不能充分回答這個問題,因為它們都不能適當保護開發者的利益,也不能使政府深入瞭解系統以負責任地部署它。”
如果機器學習模型和軟體/原始碼確實是不同的構件,為什麼前者要使用開源許可證釋出呢?答案很簡單,開源許可證已成為軟體相關市場中在軟體社群之間開放共享程式碼的實際標準。這種協作式軟體開發的“開源”方法已經滲透並影響了人工智慧的開發和許可實踐,並帶來了巨大的好處。開源和開放且負責任的人工智慧許可證(“OpenRAIL”)很可能成為互補的倡議。
我們為什麼不設計一套受開源等運動啟發並以機器學習領域的實證方法為指導的許可機制呢? 事實上,有一套新的許可框架將成為開放和負責任的機器學習開發、使用和訪問的載體:開放和負責任的人工智慧許可證(OpenRAIL)。
許可正規化的轉變:OpenRAIL
RAIL 倡議採取並由 Hugging Face 支援的 OpenRAIL 方法,受到 BigScience、開源和知識共享等倡議的啟發和影響。OpenRAIL 許可證的兩個主要特點是:
開放:這些許可證允許免費訪問、靈活的下游使用和許可材料的再分發,以及其任何衍生品的再分發。
負責任:OpenRAIL許可證包含一套針對已識別關鍵場景中AI構件使用的特定限制。基於使用的限制是根據對機器學習開發和使用限制的實證方法制定的,這種方法迫使人們在促進AI構件的廣泛訪問和使用與可能由公開許可AI構件的有害使用引起的潛在社會成本之間劃清界限。因此,雖然使用者可以從開放訪問機器學習模型中受益,但將無法將模型用於指定的受限場景。
在開放式AI許可證中整合基於使用的限制條款,使得機器學習模型許可方能夠更好地控制AI構件的使用,並增強了其執行能力,從而在模型被識別出濫用時,能夠倡導對已釋出AI構件的負責任使用。如果開放式AI許可證中不包含行為使用限制,那麼許可方在公開其AI構件時,如何能夠開始考慮與負責任使用相關的法律工具呢?OpenRAIL 和 RAIL 是實現倫理導向行為限制的第一步。
在考慮執行之前,基於使用的限制條款就可能對潛在使用者濫用模型起到威懾作用(即,勸阻效應)。然而,僅僅存在基於使用的限制可能不足以確保已釋出的AI構件不會發生潛在濫用。這就是為什麼OpenRAIL要求後續重新分發和AI構件的衍生品也採納基於使用的限制,以此來勸退AI構件衍生品的使用者濫用後者。
Copyleft 風格的行為使用條款的效果在於,將原始許可方對其所許可構件負責任使用的願望和信任傳播開來。此外,行為使用條款的廣泛採納賦予了許可構件衍生版本後續分發者更好的使用控制能力。從社會角度來看,OpenRAIL 是鞏固一種知情且尊重的人工智慧構件共享文化的載體,這種文化承認其侷限性以及模型許可方所持有的價值觀。
OpenRAIL 可以像開源軟體許可對於程式碼那樣,成為優秀機器學習的基石
OpenRAIL 許可證的三個例子是最近釋出的 BigScience OpenRAIL-M、StableDiffusion 的 CreativeML OpenRAIL-M,以及前兩者的起源:BigSicence BLOOM RAIL v1.0(參見部落格和常見問題解答 此處)。後者專門設計用於促進 BigScience 176B 引數模型 BLOOM(及相關檢查點)的開放和負責任的訪問和使用。該許可證在開放性和負責任的人工智慧之間發揮作用,透過提出一套寬鬆的許可條款,並輔以基於使用的限制條款,其中根據大型語言模型(LLM)的潛在能力及其固有的風險和經過審查的侷限性,設定了有限數量的受限制用途。RAIL 倡議所採取的 OpenRAIL 方法是 BigScience BLOOM RAIL v1.0 作為同類首個模型釋出的結果,同時釋出了其他具有行為使用條款的更受限制的模型,例如 OPT-175 或 SEER。
這些許可證是 BigScience 對許可領域中兩個部分已解決的挑戰的回應:(i) “模型”與“程式碼”是不同的事物;(ii) 模型的負責任使用。BigScience 更進一步,真正將許可證聚焦於特定場景和 BigScience 社群目標。事實上,所提出的解決方案在人工智慧領域是全新的:BigScience 以一種使模型的負責任使用得以廣泛傳播(即促進負責任使用)的方式設計了許可證,因為模型的任何再分發或衍生品都必須遵守特定的基於使用的限制,同時在許可證的其餘部分可以提出其他許可條款。
OpenRAIL 也與當前監管趨勢保持一致,即針對人工智慧系統的部署、使用和商業化提出特定行業的法規。隨著人工智慧法規(例如,歐盟人工智慧法案;加拿大提案的人工智慧與資料法案)的出現,受人工智慧監管趨勢和倫理關注啟發的新的開放許可正規化有可能在未來幾年被大規模採用。不充分考慮其影響、使用和文件而開源一個模型,可能在新的人工智慧監管趨勢下引發擔憂。因此,OpenRAIL 應被視為與當前人工智慧監管趨勢相協調並作為更廣泛的人工智慧治理工具體系一部分的工具,而不是唯一能夠實現人工智慧開放和負責任使用的解決方案。
開放許可 是人工智慧創新的基石之一。許可證作為社會和法律機構,應得到妥善對待。它們不應被視為繁瑣的法律技術機制,而應被視為人工智慧社群之間的一種交流工具,透過共享關於許可構件如何使用的共同資訊,將利益相關者聚集在一起。
讓我們投資於一種健康的開放和負責任的人工智慧許可文化,人工智慧創新和未來的影響都取決於它,取決於我們所有人,取決於你。
作者:Carlos Muñoz Ferrandis
部落格致謝:Yacine Jernite, Giada Pistilli, Irene Solaiman, Clementine Fourrier, Clément Délange