AI 水印 101:工具與技術
近幾個月,我們看到了多起涉及“深度偽造”(deepfakes)或 AI 生成內容的新聞事件:從 泰勒·斯威夫特的影像 到 湯姆·漢克斯的影片 和 美國總統喬·拜登的錄音。無論是用於銷售產品、未經同意篡改他人影像、支援網路釣魚以獲取私人資訊,還是製造旨在誤導選民的虛假資訊材料,“深度偽造”內容正越來越多地在社交媒體平臺上傳播。這使得它們能夠迅速擴散,產生更廣泛的影響,從而可能造成長期的損害。
在這篇博文中,我們將介紹為 AI 生成內容新增水印的方法,討論它們的優缺點,並展示 Hugging Face Hub 上可用於新增/檢測水印的一些工具。
什麼是水印?其工作原理是什麼?

水印是一種為內容新增標記以傳達額外資訊(如真實性)的方法。AI 生成內容中的水印可以是從完全可見(圖 1)到不可見(圖 2)的。在 AI 領域,水印技術特指在數字內容(如影像)中新增特定模式,以傳達有關內容來源的資訊;這些模式可以被人眼或演算法識別。

為 AI 生成內容新增水印主要有兩種方法:第一種是在內容建立過程中進行,這需要訪問模型本身,但由於它是作為生成過程的一部分自動嵌入的,因此可以更加穩健。第二種方法是在內容生成後實施,這種方法甚至可以應用於來自閉源和專有模型的內容,但其缺點是可能不適用於所有型別的內容(例如文字)。
資料投毒和簽名技術
除了水印技術,一些相關技術在限制未經同意的影像篡改方面也發揮著作用。一些技術會以不可感知的方式修改您在網上分享的圖片,使得 AI 演算法無法很好地處理它們。儘管人類可以正常看到這些圖片,AI 演算法卻無法獲取可比較的內容,因此也就無法建立新的影像。能夠以不可感知的方式修改影像的工具包括 Glaze 和 Photoguard。其他工具則透過“投毒”影像,破壞 AI 演算法訓練中固有的假設,使 AI 系統無法根據網上分享的圖片學習人們的長相——這增加了這些系統生成人物假影像的難度。這些工具包括 Nightshade 和 Fawkes。
透過使用“簽名”技術,將內容與其來源的元資料相關聯,也可以維護內容的真實性和可靠性,例如 Truepic 的工作,它遵循 C2PA 標準嵌入元資料。影像簽名有助於瞭解影像的來源。雖然元資料可以被編輯,但像 Truepic 這樣的系統透過以下方式解決了這個限制:1) 提供認證以確保元資料的有效性可以被驗證;2) 與水印技術結合,使其更難移除資訊。
開放與閉源水印
向公眾提供不同級別的加水印工具和檢測器訪問許可權各有利弊。開放有助於激發創新,因為開發者可以迭代關鍵思想,創造出越來越好的系統。然而,這必須與惡意使用相平衡。在呼叫加水印工具的 AI 管道中使用開原始碼,移除加水印步驟變得輕而易舉。即使管道的這部分是閉源的,如果水印是已知的且加水印程式碼是開源的,惡意行為者也可能透過閱讀程式碼來找出如何編輯生成內容,從而使水印失效。如果檢測器也可訪問,就有可能持續編輯合成內容,直到檢測器返回低置信度,從而抵消水印提供的作用。有一些混合的開放-閉源方法可以直接解決這些問題。例如,Truepic 的加水印程式碼是閉源的,但他們提供了一個可以驗證內容憑證的公共 JavaScript 庫。在生成過程中呼叫加水印工具的 IMATAG 程式碼是開源的,但實際的加水印工具和檢測器是私有的。
為不同型別的資料新增水印
儘管水印在各種模態(音訊、影像、文字等)中都是一個重要的工具,但每種模態都帶來了獨特的挑戰和考慮因素。水印的意圖也同樣如此:無論是為了防止使用訓練資料來訓練模型,保護內容不被篡改,標記模型的輸出,還是檢測 AI 生成的資料。在當前部分,我們將探討不同模態的資料,它們為水印帶來的挑戰,以及 Hugging Face Hub 上存在的用於執行不同型別水印的開源工具。
影像水印
可能最為人所知的水印型別(無論是人類創作還是 AI 生成的內容)是在影像上進行的。已經提出了不同的方法來標記訓練資料,以影響基於這些資料訓練的模型的輸出:這種“影像隱身”方法中最著名的是 “Nightshade”,它對影像進行微小的、人眼無法察覺的改變,但會影響基於被投毒資料訓練的模型的質量。Hub 上有類似的影像隱身工具 - 例如,由開發 Nightshade 的同一實驗室開發的 Fawkes,專門針對人物影像,旨在挫敗面部識別系統。類似地,還有 Photoguard,它旨在保護影像免受生成式 AI 工具的篡改,例如用於基於這些影像建立深度偽造品。
在為輸出影像加水印方面,Hub 上有兩種互補的方法:IMATAG(見圖 2),它在內容生成過程中透過利用 Stable Diffusion XL Turbo 等流行模型的修改版本來進行水印處理;以及 Truepic,它在影像生成後新增不可見的內容憑證。
TruePic 還在影像中嵌入 C2PA 內容憑證,這使得關於影像來源和生成的元資料能夠儲存在影像本身中。IMATAG 和 TruePic Spaces 都允許檢測由其系統加水印的影像。這兩種檢測工具都與其各自的方法配合工作(即它們是方法特定的)。Hub 上有一個現有的通用深度偽造影像檢測 Space,但根據我們的經驗,我們發現這些解決方案的效能因影像質量和所用模型的不同而有所差異。
文字水印
雖然為 AI 生成的影像新增水印似乎更直觀——鑑於這類內容的強烈視覺性——但文字則是完全不同的故事……如何為書面文字和數字(tokens)新增水印?嗯,當前的水印方法依賴於根據前文推廣子詞彙表。讓我們深入瞭解一下這對 LLM 生成的文字會是什麼樣子。
在生成過程中,LLM 在進行取樣或貪婪解碼之前會為下一個詞元輸出一個 logits 列表。根據之前生成的文字,大多數方法會將所有候選詞元分成兩組——稱之為“紅”組和“綠”組。“紅”組的詞元將受到限制,“綠”組將得到推廣。這可以透過完全禁止紅組詞元(硬水印),或增加綠組的機率(軟水印)來實現。我們對原始機率的改變越大,我們的水印強度就越高。WaterBench 建立了一個基準資料集,以便在控制水印強度進行同類比較的情況下,方便地比較不同水印演算法的效能。
檢測的工作原理是確定每個詞元的“顏色”,然後計算輸入文字來自相關模型的機率。值得注意的是,較短的文字置信度要低得多,因為可供檢查的詞元較少。

在 Hugging Face Hub 上,您有幾種方法可以輕鬆地為 LLM 實現水印功能。LLM 水印 Space(見圖 3)演示了這一點,它在 OPT 和 Flan-T5 等模型上使用了 LLM 水印方法。對於生產級工作負載,您可以使用我們的 文字生成推理工具包,它實現了相同的水印演算法並設定了相應的引數,可以與任何最新模型一起使用!
與 AI 生成影像的通用水印類似,為文字進行通用水印是否可行尚待證明。像 GLTR 這樣的方法旨在對任何可訪問的語言模型都具有魯棒性(因為它們依賴於將生成文字的 logits 與不同模型的 logits 進行比較)。在無法訪問某個語言模型的情況下(因為它可能是閉源的,或者你不知道是用哪個模型生成的文字),目前無法檢測給定文字是否由該模型生成。
正如我們上面討論的,生成文字的檢測方法需要大量的文字才能可靠。即便如此,檢測器也可能有很高的假陽性率,錯誤地將人類寫的文字標記為合成的。事實上,OpenAI 在 2023 年因準確率低而移除了其內部檢測工具,當教師用它來判斷學生提交的作業是否由 ChatGPT 生成時,這帶來了意想不到的後果。
音訊水印
從一個人聲音中提取的資料(聲紋)常被用作生物安全認證機制來識別個人。雖然通常與 PIN 碼或密碼等其他安全因素配合使用,但這種生物特徵資料的洩露仍然存在風險,並可能被用於訪問例如銀行賬戶,因為許多銀行使用語音識別技術透過電話驗證客戶。隨著語音複製技術透過 AI 變得越來越容易,我們必須改進驗證語音音訊真實性的技術。為音訊內容新增水印與為影像新增水印類似,因為存在一個多維輸出空間,可用於注入有關來源的元資料。在音訊的情況下,水印通常是在人耳聽不見的頻率(低於約 20 赫茲或高於約 20,000 赫茲)上進行的,然後可以透過 AI 驅動的方法進行檢測。
鑑於音訊輸出的高風險性,音訊內容加水印是一個活躍的研究領域,過去幾年已提出了多種方法(例如,WaveFuzz,Venomave)。
AudioSeal 是一種用於語音區域性水印的方法,具有最先進的檢測器速度,同時不影響水印的魯棒性。它聯合訓練一個在音訊中嵌入水印的生成器,以及一個即使在存在編輯的情況下也能在較長音訊中檢測到水印片段的檢測器。AudioSeal 在樣本級別(1/16k 秒解析度)實現了對自然語音和合成語音的最先進檢測效能,它對訊號質量的改變有限,並且對多種型別的音訊編輯具有魯棒性。

AudioSeal 也被用於釋出帶有安全機制的 SeamlessExpressive 和 SeamlessStreaming 演示。
結論
虛假資訊、真實內容被指控為合成內容,以及未經同意不當呈現他人形象的事件,處理起來既困難又耗時;在糾正和澄清之前,大部分損害已經造成。因此,作為我們普及優秀機器學習使命的一部分,Hugging Face 認為,擁有快速、系統地識別 AI 生成內容的機制至關重要。AI 水印並非萬無一失,但在對抗惡意和誤導性使用 AI 的鬥爭中,它可以成為一個強大的工具。
相關新聞報道
- 不僅僅是泰勒·斯威夫特:如何防範 AI 深度偽造和性騷擾 | PopSugar (@meg)
- 三種對抗深度偽造色情內容的方法 | 麻省理工科技評論 (@sasha)
- 槍支暴力奪走了他們的生命。現在,他們的聲音將透過 AI 遊說國會採取更多行動 | NPR (@irenesolaiman)
- 谷歌 DeepMind 推出 AI 生成影像水印工具 | 麻省理工科技評論 (@sasha)
- 隱形 AI 水印無法阻止惡意行為者,但對善意使用者而言意義重大 | VentureBeat (@meg)
- 聊天機器人水印可識別 AI 編寫的文字 | 麻省理工科技評論 (@irenesolaiman)
- Hugging Face 賦能使用者使用深度偽造檢測工具 | Mashable (@meg)