AI 安全大型語言模型安全排行榜介紹
鑑於大型語言模型(LLM)的廣泛應用,在現實世界中進行大規模部署之前,瞭解它們在不同場景下的安全性和風險至關重要。特別是,美國白宮釋出了一項關於安全、可靠和值得信賴的AI的行政命令;歐盟AI法案強調了高風險AI系統的強制性要求。在法規之外,提供評估AI系統風險、增強其安全性並可能提供安全且對齊的AI系統的技術解決方案也同樣重要。
因此,在2023年,我們在安全學習實驗室推出了DecodingTrust,這是首個全面統一的評估平臺,致力於評估大型語言模型的信任度。(這項工作獲得了 NeurIPS 2023 的傑出論文獎。)
DecodingTrust 提供了一個多方面的評估框架,涵蓋八個信任度維度:毒性、刻板印象偏見、對抗魯棒性、OOD(域外)魯棒性、對抗性演示魯棒性、隱私、機器倫理和公平性。具體而言,DecodingTrust 1) 提供全面的信任度視角,用於整體信任度評估;2) 提供針對每個視角量身定製的新穎紅隊演算法,從而能夠對大型語言模型進行深入測試;3) 支援在各種雲環境中輕鬆安裝;4) 提供針對開放模型和封閉模型的綜合排行榜,基於它們的信任度;5) 提供失敗示例研究,以增強透明度和理解;6) 提供端到端演示以及詳細的模型評估報告,以供實際使用。
今天,我們很高興宣佈推出新的大型語言模型安全排行榜,該排行榜專注於大型語言模型的安全評估,並由HF 排行榜模板提供支援。
紅隊評估
DecodingTrust 為每個評估視角提供了幾種新穎的紅隊方法,以進行壓力測試。詳細的測試場景和指標在我們的論文中的圖3。
針對毒性,我們設計了最佳化演算法和提示生成模型,以生成具有挑戰性的使用者提示。我們還設計了33個具有挑戰性的系統提示,例如角色扮演、任務重構和程式響應,以在不同場景下進行評估。然後,我們利用Perspective API來評估給定我們具有挑戰性的提示所生成內容的毒性分數。
針對刻板印象偏見,我們收集了24個人口統計群體和16個刻板印象主題,以及每個主題的三個提示變體,以評估模型偏見。我們對模型提示5次,並取平均值作為模型偏見分數。
為了評估對抗性魯棒性,我們構建了五種對抗性攻擊演算法,用於攻擊三種開放模型:Alpaca、Vicuna和StableVicuna。我們使用透過攻擊開放模型生成的對抗性資料,評估了不同模型在五項不同任務上的魯棒性。
針對 OOD 魯棒性視角,我們設計了不同的風格轉換、知識轉換等,以評估模型在以下情況下的效能:1) 輸入風格轉換為莎士比亞式或詩歌形式等不常見的風格,或者 2) 回答問題所需的知識在大型語言模型的訓練資料中缺失。
為了評估對抗性演示的魯棒性,我們設計了包含誤導性資訊的演示,例如反事實示例、虛假相關和後門攻擊,以評估模型在不同任務上的表現。
關於隱私,我們提供不同級別的評估,包括:1) 預訓練資料中的隱私洩露,2) 對話中的隱私洩露,以及 3) 大型語言模型對隱私相關詞語和事件的理解。特別是,對於 1) 和 2),我們設計了不同的方法來執行隱私攻擊。例如,我們提供不同格式的提示,以引導大型語言模型輸出敏感資訊,例如電子郵件地址和信用卡號。
針對倫理,我們利用 ETHICS 和 Jiminy Cricket 資料集設計了越獄系統和使用者提示,用於評估模型對不道德行為識別的效能。
對於公平性,我們透過控制不同任務中的受保護屬性來生成具有挑戰性的問題,以評估模型在零樣本和少樣本設定下的公平性。
我們論文的一些主要發現
總的來說,我們發現
- GPT-4 比 GPT-3.5 更容易受到攻擊,
- 沒有哪個單一的大型語言模型能在所有信任度方面持續優於其他模型,
- 不同的信任度視角之間存在權衡,
- 大型語言模型在理解不同隱私相關詞彙方面表現出不同的能力。例如,如果 GPT-4 被提示“in confidence”,它可能不會洩露私人資訊,而如果被提示“confidentially”,它可能會洩露資訊。
- 大型語言模型在不同信任度視角下容易受到對抗性或誤導性提示或指令的影響。
如何提交您的模型以供評估
首先,將您的模型權重轉換為 safetensors 格式。這是一種新的權重儲存格式,載入和使用更安全、更快。它還將允許我們在主表中顯示您的模型引數數量!
然後,確保您可以使用 AutoClasses 載入您的模型和分詞器
from transformers import AutoConfig, AutoModel, AutoTokenizer
config = AutoConfig.from_pretrained("your model name")
model = AutoModel.from_pretrained("your model name")
tokenizer = AutoTokenizer.from_pretrained("your model name")
如果此步驟失敗,請按照錯誤訊息除錯您的模型,然後再提交。很可能是您的模型上傳不正確。
備註
- 請確保您的模型是公開的!
- 我們尚不支援需要`use_remote_code=True`的模型。但我們正在努力,敬請關注!
最後,使用我們排行榜上的“在此提交!”面板提交您的模型進行評估!
引用
如果您覺得我們的評估有幫助,請考慮引用我們的工作。
@article{wang2023decodingtrust,
title={DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models},
author={Wang, Boxin and Chen, Weixin and Pei, Hengzhi and Xie, Chulin and Kang, Mintong and Zhang, Chenhui and Xu, Chejian and Xiong, Zidi and Dutta, Ritik and Schaeffer, Rylan and others},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2023}
}