400 萬個模型已掃描:Protect AI + Hugging Face 合作六個月回顧

Hugging Face 和 Protect AI 於 2024 年 10 月 合作,透過 Guardian 的掃描技術,為那些在 Hugging Face Hub 上探索和使用模型的開發者社群增強機器學習(ML)模型的安全性。這次合作從一開始就非常契合——Hugging Face 的使命是普及開源 AI 的使用,並致力於安全和保障;而 Protect AI 則正在構建護欄,以確保開源模型對所有人都是安全的。
推出了 4 個新的威脅檢測模組
自 10 月以來,Protect AI 顯著擴充套件了 Guardian 的檢測能力,改進了現有的威脅檢測功能,並推出了四個新的檢測模組
- PAIT-ARV-100: 歸檔檔案滑脫漏洞可在載入時寫入檔案系統
- PAIT-JOBLIB-101: 在模型載入時檢測到 Joblib 模型可疑程式碼執行
- PAIT-TF-200: TensorFlow SavedModel 包含架構後門
- PAIT-LMAFL-300: Llamafile 可在推理期間執行惡意程式碼
透過這些更新,Guardian 覆蓋了更多的模型檔案格式,並檢測到更復雜的混淆技術,包括 Keras 中的高危漏洞 CVE-2025-1550。藉助增強的檢測工具,Hugging Face 使用者可以透過平臺上的內聯警報接收關鍵安全資訊,並在 Insights DB 上獲取全面的漏洞報告。每個模型頁面上都提供了清晰標記的發現,使使用者能夠就將哪些模型整合到他們的專案中做出更明智的決策。
資料統計
截至 2025 年 4 月 1 日,Protect AI 已成功掃描了 Hugging Face Hub 上 141 萬個儲存庫中的 447 萬個獨特模型版本。
迄今為止,Protect AI 已在 51,700 個模型中發現了總共 352,000 個不安全/可疑問題。僅在過去 30 天內,Protect AI 就以 7.94 毫秒的響應時間,處理了來自 Hugging Face 的 2.26 億次請求。
保持對模型安全的零信任方法
Protect AI 的 Guardian 對 AI/ML 安全採用零信任方法。這在將任意程式碼執行視為固有不安全(無論意圖如何)時尤其重要。Guardian 不僅僅對明顯的惡意威脅進行分類,而是在 InsightsDB 上將執行風險標記為可疑,認識到即使是有害程式碼也可以透過混淆技術看起來無害(更多關於有效載荷混淆的內容見下文)。攻擊者可以將有效載荷偽裝在看似無害的指令碼或框架的可擴充套件性元件中,使得僅憑有效載荷檢查不足以確保安全。透過保持這種謹慎的方法,Guardian 有助於減輕機器學習模型中隱藏威脅帶來的風險。
發展 Guardian 的模型漏洞檢測能力
AI/ML 安全威脅每天都在演變。這就是為什麼 Protect AI 同時利用內部的威脅研究團隊和 huntr——這是由我們超過 17,000 名安全研究人員組成的社群支援的全球首個也是最大的 AI/ML 漏洞賞金計劃。
與我們在 10 月份的合作啟動同時,Protect AI 在 huntr 上啟動了一個新專案,以眾包方式研究新的模型檔案漏洞。自該專案啟動以來,他們已收到超過 200 份報告,Protect AI 團隊已處理這些報告並將其納入 Guardian——所有這些都自動應用於 Hugging Face 上的模型掃描。
常見攻擊主題
隨著更多 huntr 報告的提交和更多獨立威脅研究的進行,某些趨勢已經顯現。
依賴於庫的攻擊鏈: 這些攻擊主要關注攻擊者呼叫 ML 工作站環境中存在的庫函式的能力。這讓人想起曾困擾瀏覽器和系統的“路過式下載”攻擊,當時 Java 和 Flash 等常用工具普遍存在。通常,這些攻擊的影響規模與特定庫的普遍程度成正比,像 Pytorch 這樣的常用 ML 庫比不常用的庫具有更廣泛的潛在影響。
有效載荷混淆: 一些報告強調了在模型中插入、混淆或“隱藏”有效載荷以繞過常見掃描技術的方法。這些漏洞使用壓縮、編碼和序列化等技術來混淆有效載荷,不易被檢測。壓縮是一個問題,因為像 Joblib 這樣的庫允許直接載入壓縮的有效載荷。像 Keras 和 NeMo 這樣的容器格式會嵌入額外的模型檔案,每個檔案都可能受到其特定的攻擊向量的影響。壓縮使使用者面臨 TarSlip 或 ZipSlip 漏洞的風險。雖然這些影響通常僅限於拒絕服務,但在某些情況下,這些漏洞可以透過利用路徑遍歷技術導致任意程式碼執行,允許惡意攻擊者覆蓋通常會自動執行的檔案。
框架可擴充套件性漏洞: ML 框架提供了許多可擴充套件性機制,無意中創造了危險的攻擊向量:自定義層、外部程式碼依賴和基於配置的程式碼載入。例如,huntr 社群向我們報告的 Keras 中的 CVE-2025-1550 漏洞,展示了儘管有安全功能,自定義層仍可能被利用來執行任意程式碼。具有序列化漏洞的配置檔案同樣允許動態程式碼載入。這些反序列化漏洞使得模型可以透過嵌入在使用者毫無戒心載入的格式中的精心製作的有效載荷而被利用。儘管供應商進行了安全改進,但舊的易受攻擊版本和不安全的依賴處理仍然在 ML 生態系統中構成重大風險。
攻擊向量鏈: 最近的報告展示瞭如何將多個漏洞組合起來建立複雜的攻擊鏈以繞過檢測。透過依次利用混淆的有效載荷和擴充套件機制等漏洞,研究人員展示了複雜的入侵路徑,這些路徑在單獨檢查時看起來是良性的。這種方法顯著增加了檢測和緩解工作的複雜性,因為專注於單向量威脅的安全工具通常會錯過這些複合攻擊。有效的防禦需要識別並解決攻擊鏈中的所有環節,而不是孤立地處理每個漏洞。
為 Hugging Face 使用者提供全面的威脅檢測
業界領先的 Protect AI 威脅研究團隊,在 huntr 社群的幫助下,持續收集資料和見解,以開發新的、更強大的模型掃描以及自動威脅攔截功能(可供 Guardian 客戶使用)。在過去幾個月中,Guardian 已經
增強了對依賴庫攻擊的檢測:顯著擴充套件了 Guardian 對依賴庫攻擊向量的掃描能力。針對 PyTorch 和 Pickle 的掃描器現在執行序列化程式碼的深度結構分析,檢查執行路徑並識別可能透過庫依賴觸發的潛在惡意程式碼模式。例如,PyTorch 的 torchvision.io 函式可以覆蓋受害者系統上的任何檔案,以包含有效載荷或刪除其所有內容。Guardian 現在可以檢測到 PyTorch、Numpy 和 Pandas 等流行庫中更多這類危險函式。
揭示了混淆攻擊: Guardian 對各種歸檔格式進行多層分析,解壓巢狀歸檔並檢查壓縮的有效載荷中是否存在惡意模型。這種方法可以檢測透過壓縮、編碼或序列化技術隱藏惡意程式碼的企圖。例如,Joblib 支援使用不同的壓縮格式儲存模型,這可能混淆 Pickle 反序列化漏洞,同樣的情況也可能發生在其他格式中,如 Keras,它可以包含帶有反序列化有效載荷的 Numpy 權重檔案。
檢測到框架可擴充套件性元件中的漏洞: Guardian 不斷改進的檢測模組在漏洞被公開披露之前,就向 Hugging Face 上的使用者發出了受 CVE-2025-1550(一個關鍵安全發現)影響的模型的警報。這些檢測模組全面分析 ML 框架的擴充套件機制,只允許標準或經過驗證的元件,並阻止潛在危險的實現,無論其表面意圖如何。
識別了額外的架構後門:Guardian 的架構後門檢測能力已從 ONNX 格式擴充套件到包括 TensorFlow 等其他模型格式。
擴充套件了模型格式覆蓋範圍: Guardian 的真正優勢在於其覆蓋的深度,這推動了檢測模組的大幅擴充套件,以包括 Joblib 和日益流行的 llamafile 格式等其他格式,並即將支援更多 ML 框架。
提供了更深入的模型分析: 積極研究增強當前檢測能力的其他方法,以更好地分析和檢測不安全的模型。預計在不久的將來,在減少誤報和漏報方面將有顯著的改進。
未來會更好
透過與 Protect AI 和 Hugging Face 的合作,我們使第三方 ML 模型更安全、更易於訪問。我們相信,有更多人關注模型安全只會有好處。我們越來越多地看到安全界開始關注並投入,使得威脅更容易被發現,AI 的使用對所有人也更安全。