使用 Substra 建立隱私保護型人工智慧

釋出於 2023 年 4 月 12 日
在 GitHub 上更新

隨著生成式技術最近的興起,機器學習正處於其歷史上一個令人難以置信的激動人心的時刻。推動這一興起的模型需要更多資料才能產生有影響力的結果,因此,探索道德地收集資料的新方法,同時確保資料隱私和安全始終是重中之重,正變得越來越重要。

在許多處理敏感資訊的領域,例如醫療保健,通常沒有足夠的高質量資料來訓練這些資料密集型模型。資料集被隔離在不同的學術中心和醫療機構中,並且由於對患者和專有資訊的隱私擔憂,難以公開共享。保護患者資料的法規,例如 HIPAA,對於保護個人私人健康資訊至關重要,但它們可能會限制機器學習研究的進展,因為資料科學家無法訪問有效訓練模型所需的資料量。與現有法規協同工作,主動保護患者資料的技術,對於打破這些壁壘並加速這些領域機器學習研究和部署的步伐至關重要。

這就是聯邦學習發揮作用的地方。檢視我們與 Substra 共同建立的 空間 以瞭解更多資訊!

什麼是聯邦學習?

聯邦學習 (FL) 是一種去中心化的機器學習技術,允許您使用多個數據提供商來訓練模型。資料可以保留在本地伺服器上,因為只有生成的模型權重在伺服器之間傳輸,而不是將所有來源的資料收集到單個伺服器上。

由於資料從未離開其來源,聯邦學習本質上是一種隱私優先的方法。這項技術不僅提高了資料安全性和隱私性,還使資料科學家能夠使用來自不同來源的資料構建更好的模型——與僅使用單一來源資料訓練的模型相比,提高了魯棒性並提供了更好的表示。這不僅有價值在於增加了資料量,而且還降低了由於底層資料集的變化(例如資料捕獲技術和裝置造成的微小差異,或患者人群人口分佈的差異)而導致的偏差風險。透過多種資料來源,我們可以構建更具泛化性的模型,最終在實際場景中表現更好。有關聯邦學習的更多資訊,我們建議您檢視 Google 的這本解釋性 漫畫

Substra quote

Substra 是一個為真實世界生產環境構建的開源聯邦學習框架。儘管聯邦學習是一個相對較新的領域,並且在過去十年中才開始流行,但它已經使機器學習研究以以前無法想象的方式取得進展。例如,在 MELLODDY 專案中,10 家相互競爭的生物製藥公司(傳統上絕不會彼此共享資料)透過共享全球最大的已知生化或細胞活性小分子集合,建立了一個合作專案。這最終使所有參與的公司能夠構建更準確的藥物發現預測模型,這是醫學研究的一個巨大里程碑。

Substra x HF

聯邦學習能力的研究正在迅速發展,但最近的大多數工作都侷限於模擬環境。由於部署和構建聯邦網路的困難,現實世界的例子和實現仍然有限。作為聯邦學習部署的領先開源平臺,Substra 已在許多複雜的安全環境和 IT 基礎設施中久經考驗,並促成了 乳腺癌研究方面的醫學突破

Substra diagram

Hugging Face 與 Substra 的管理人員合作建立了這個空間,旨在讓您瞭解研究人員和科學家所面臨的現實世界挑戰——主要是缺乏集中化、高質量的“可用於 AI”的資料。由於您可以控制這些樣本的分佈,因此您將能夠看到一個簡單模型對資料變化的反應。然後,您可以檢查與使用單一來源資料訓練的模型相比,使用聯邦學習訓練的模型在驗證資料上的表現幾乎總是更好。

結論

儘管聯邦學習一直處於領先地位,但還有各種其他隱私增強技術 (PET),例如安全飛地和多方計算,它們正在實現類似的結果,並且可以與聯邦結合使用,以建立多層隱私保護環境。如果您對這些技術如何促成醫學領域的合作感興趣,可以在此處瞭解更多資訊。

無論使用何種方法,我們都必須警惕資料隱私是所有人的權利這一事實。在當前人工智慧蓬勃發展之際,我們必須牢記隱私和倫理

如果您想試用 Substra 並在專案中實現聯邦學習,可以在此處檢視文件。

社群

註冊登入 以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.