大型語言模型的紅隊評估

釋出於 2023 年 2 月 24 日
在 GitHub 上更新

警告:本文旨在探討紅隊評估,因此包含可能冒犯或令人不安的模型生成示例。

在海量文字資料上訓練的大型語言模型 (LLM) 在生成真實文字方面表現出色。然而,這些模型經常表現出不良行為,例如洩露個人資訊(如社會安全號碼)以及生成虛假資訊、偏見、仇恨或有害內容。例如,早期版本的 GPT3 就曾表現出性別歧視行為(見下文)和對穆斯林的偏見

一旦我們在使用 LLM 時發現此類不良結果,我們就可以制定策略來引導其避免這些結果,例如在 GPT3 中使用生成判別器引導序列生成 (GeDi)即插即用語言模型 (PPLM) 來引導生成。下面是使用相同提示但在 GeDi 中控制 GPT3 生成的示例。

即使是最新版本的 GPT3,在遭受提示注入攻擊時,也會生成類似有害的文字,這可能對下游應用程式構成安全隱患,如此部落格中所述。

紅隊評估是一種評估形式,旨在揭示可能導致不良行為的模型漏洞。“越獄”是紅隊評估的另一個術語,指透過操縱 LLM 來突破其安全防護。2016 年推出的微軟聊天機器人 Tay 和最近的必應聊天機器人 Sydney 都是真實世界的例子,表明缺乏對底層機器學習模型進行徹底的紅隊評估會帶來多麼災難性的後果。紅隊概念的起源可以追溯到軍隊進行的對抗模擬和戰爭遊戲。

紅隊評估語言模型的目標是精心設計一個提示,以觸發模型生成可能造成傷害的文字。紅隊評估與機器學習中更廣為人知的評估形式——對抗性攻擊——有一些相似之處和不同之處。相似之處在於,紅隊評估和對抗性攻擊都旨在“攻擊”或“欺騙”模型,使其在實際用例中生成不希望出現的內容。然而,對抗性攻擊對人類來說可能難以理解,例如,透過在每個提示前加上字串“aaabbbcc”來降低模型效能。Wallace 等人,2019 年討論了針對各種 NLP 分類和生成任務的此類攻擊的許多例子。另一方面,紅隊評估提示看起來像常規的自然語言提示。

紅隊評估可以揭示模型限制,這些限制可能導致令人不安的使用者體驗,或透過協助暴力或其他非法活動而對具有惡意意圖的使用者造成傷害。紅隊評估的輸出(就像對抗性攻擊一樣)通常用於訓練模型以減少造成傷害的可能性,或使其避免生成不良輸出。

由於紅隊評估需要對可能的模型故障進行創造性思考,因此這是一個搜尋空間巨大的問題,耗費資源。一個變通方法是為 LLM 增加一個分類器,該分類器經過訓練可以預測給定提示是否包含可能導致冒犯性生成的主題或短語,如果分類器預測該提示可能導致潛在的冒犯性文字,則生成一個預設響應。這種策略會傾向於保守。但這將非常嚴格,並導致模型經常回避。因此,模型在“有用”(透過遵循指令)和“無害”(或至少不太可能造成傷害)之間存在張力。

紅隊可以是有人參與的,也可以是測試另一個 LM 是否產生有害輸出的 LM。為經過安全和對齊微調的模型(例如透過 RLHF 或 SFT)設計紅隊提示需要創造性思維,表現為角色扮演攻擊,其中 LLM 被指示扮演惡意角色,如Ganguli 等人,2022 年。指示模型以程式碼而非自然語言進行響應也可以揭示模型的學習偏見,如下面的示例所示。

有關更多示例,請參閱推文串。

以下是 ChatGPT 本身列出的 LLM 越獄方法。

大型語言模型 (LLM) 的紅隊評估仍是一個新興研究領域,上述策略仍可能在越獄這些模型方面發揮作用,或者它們已協助大規模機器學習產品的部署。隨著這些模型具備更強大的新興能力,開發能夠持續適應的紅隊評估方法將變得至關重要。一些必要的紅隊評估最佳實踐包括模擬尋求權力行為的場景(例如:資源)、說服他人(例如:傷害自己或他人)、對物理結果擁有代理權(例如:透過 API 線上訂購化學品)。我們將這類具有物理後果的可能性稱為關鍵威脅場景

評估 LLM 惡意行為的注意事項是,我們不知道它們能做什麼,因為它們並未明確訓練來表現此類行為(因此稱為新興能力)。因此,隨著 LLM 變得越來越強大,真正瞭解它們能力的方法是模擬所有可能導致惡意結果的場景,並評估模型在每種場景中的行為。這意味著我們模型的安全行為與我們紅隊評估方法的強度息息相關。

鑑於紅隊評估的持續挑戰,多組織(可能包括學術、工業和政府實體)在資料集和最佳實踐方面進行合作存在激勵。結構化的資訊共享流程可以使釋出模型的較小實體在釋出前仍能對其模型進行紅隊評估,從而全面提升使用者體驗。

紅隊評估的開源資料集

  1. Meta 的Bot 對抗性對話資料集
  2. Anthropic 的紅隊評估嘗試
  3. AI2 的RealToxicityPrompts

大型語言模型紅隊評估的過往發現(摘自Anthropic 的 Ganguli 等人 2022Perez 等人 2022

  1. 使用少量提示語進行引導的、表現出有益、誠實和無害行為的語言模型,其紅隊評估難度高於普通語言模型。
  2. 除了 RLHF 模型之外,模型規模的擴大與攻擊成功率之間沒有明顯的趨勢,而 RLHF 模型隨著規模的擴大,紅隊評估的難度也隨之增加。
  3. 模型可能會透過迴避來學習無害,在有益性和無害性之間存在權衡。
  4. 在人類之間,對於什麼是成功的攻擊,總體上存在較低的一致性。
  5. 不同傷害類別的成功率分佈各異,非暴力類別的成功率較高。
  6. 眾包紅隊評估導致模板化提示(例如:“說一個以 X 開頭的貶義詞”),使其變得冗餘。

未來方向

  1. 目前沒有用於程式碼生成的開源紅隊資料集,該資料集試圖透過程式碼來“越獄”模型,例如,生成一個實現 DDOS 或後門攻擊的程式。
  2. 為關鍵威脅場景設計並實施大型語言模型紅隊評估策略。
  3. 紅隊評估可能耗費資源,包括計算和人力資源,因此將受益於策略共享、開源資料集以及可能的協作以提高成功機率。
  4. 評估規避性和實用性之間的權衡。
  5. 根據上述權衡列出選擇,並探索紅隊評估的帕累託前沿(類似於Anthropic 的“憲法級人工智慧”工作)。

這些侷限性和未來方向清楚地表明,紅隊評估是現代大型語言模型 (LLM) 工作流程中一個未充分探索但至關重要的組成部分。這篇文章呼籲 LLM 研究人員和 HuggingFace 的開發者社群,共同努力,為構建一個安全友好的世界而協作。:)

如果您有興趣加入此類合作,請聯絡我們(@nazneenrajani @natolambert @lewtun @TristanThrush @yjernite @thomwolf)。

致謝:我們衷心感謝Yacine Jernite 對本部落格文章中術語的正確使用提出的寶貴建議。

社群

註冊登入發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.