超大語言模型及其評估方法
現在可以透過 Evaluation on the Hub 在零樣本分類任務上評估大型語言模型了!
零樣本評估是研究人員衡量大型語言模型效能的一種流行方法,因為有研究表明,這些模型在訓練過程中無需明確接觸帶標籤的樣本即可學習到某些能力。逆縮放獎 (Inverse Scaling Prize) 是近期社群努力的一個例子,旨在跨越不同模型大小和系列進行大規模零樣本評估,以發現那些在某些任務上較大模型可能表現不如較小模型的現象。
在 Hub 上對語言模型進行零樣本評估
Evaluation on the Hub 可幫助您在無需編寫程式碼的情況下評估 Hub 上的任何模型,它由 AutoTrain 提供支援。現在,Hub 上的任何因果語言模型都可以透過零樣本方式進行評估。零樣本評估衡量的是一個已訓練模型生成給定一組詞元 (token) 的可能性,並且不需要任何帶標籤的訓練資料,這使得研究人員可以省去昂貴的標註工作。
我們為這個專案升級了 AutoTrain 基礎設施,這樣大型模型就可以免費評估了 🤯!對於使用者來說,要編寫自定義程式碼在 GPU 上評估大型模型是既昂貴又耗時的。例如,一個擁有 660 億引數的語言模型可能需要 35 分鐘才能載入和編譯,這使得評估大型模型僅限於那些擁有昂貴基礎設施和豐富技術經驗的人。透過這些改進,在一個包含 2000 個句子長度樣本的零樣本分類任務上評估一個 660 億引數的模型需要 3.5 小時,並且社群中的任何人都可以完成。目前,Evaluation on the Hub 支援評估高達 660 億引數的模型,對更大模型的支援也即將推出。
零樣本文字分類任務接收一個包含一組提示 (prompt) 和可能補全 (completion) 的資料集。在底層,補全部分會與提示拼接起來,然後對每個詞元的對數機率進行求和,再進行歸一化,並與正確補全進行比較,以報告任務的準確率。
在這篇部落格文章中,我們將使用零樣本文字分類任務來評估各種 OPT 模型在 WinoBias 上的表現。WinoBias 是一項衡量與職業相關的性別偏見的指代消解任務。它測量模型是否更傾向於選擇一個刻板印象中的代詞來補全一個提到某種職業的句子,並觀察到結果表明,在模型大小方面存在一種 逆縮放 趨勢。
案例研究:在 WinoBias 任務上進行零樣本評估
WinoBias 資料集已被格式化為一個零樣本任務,其中分類選項即為各種補全。每個補全僅在代詞上有所不同,而目標則對應於該職業的反刻板印象補全(例如,“developer/開發者” 在刻板印象中是男性主導的職業,所以“she/她”將是反刻板印象的代詞)。請參閱此處檢視示例。
接下來,我們可以在 Evaluation on the Hub 介面中使用 `text_zero_shot_classification` 任務選擇這個新上傳的資料集,選擇我們想要評估的模型,然後提交我們的評估任務!當任務完成後,您將收到電子郵件通知,告知 autoevaluator 機器人在模型的 Hub 倉庫中建立了一個包含結果的新拉取請求 (pull request)。
繪製 WinoBias 任務的結果圖表後,我們發現較小的模型更傾向於為句子選擇反刻板印象的代詞,而較大的模型則更可能學習到文字中性別與職業之間的刻板印象關聯。這證實了其他基準測試(如 BIG-Bench)的結果,這些結果表明更大、能力更強的模型在性別、種族、民族和國籍方面更容易產生偏見,也與先前的工作一致,該工作表明較大的模型更容易生成有毒文字。
為每個人提供更好的研究工具
開放科學透過社群驅動的工具開發取得了巨大進展,例如 EleutherAI 的語言模型評估框架 (Language Model Evaluation Harness) 和 BIG-bench 專案,這些工具讓研究人員能夠直接瞭解最先進模型的行為。
Evaluation on the Hub 是一個低程式碼工具,它使得比較一組模型在某個維度(如 FLOPS 或模型大小)上的零樣本效能變得簡單,也便於比較一組在特定語料庫上訓練的模型與另一組模型的效能。零樣本文字分類任務非常靈活——任何可以被構造成 Winograd schema(其中待比較的樣本僅有幾個詞的差異)的資料集都可以用於此任務,並同時在多個模型上進行評估。我們的目標是簡化上傳新資料集進行評估的過程,並使研究人員能夠輕鬆地在其上對許多模型進行基準測試。
這類工具可以解決的一個研究問題是逆縮放問題:雖然較大的模型在大多數語言任務上通常能力更強,但在某些任務上,較大的模型表現卻更差。逆縮放獎是一項競賽,挑戰研究人員構建那些較大模型表現不如較小模型的任務。我們鼓勵您在自己的任務上嘗試對各種大小的模型進行零樣本評估!如果您發現了沿模型大小變化的有趣趨勢,可以考慮將您的發現提交給第二輪逆縮放獎。
向我們傳送反饋!
在 Hugging Face,我們很高興能繼續推動對最先進機器學習模型的普及化,這包括開發工具,讓每個人都能輕鬆評估和探究它們的行為。我們之前撰文討論過標準化模型評估方法以保持一致性和可復現性,以及讓評估工具對所有人可用的重要性。Evaluation on the Hub 的未來計劃包括支援那些可能不適合將補全與提示拼接格式的語言任務的零樣本評估,並增加對更大型模型的支援。
作為社群的一員,您能做出的最有用的貢獻之一就是向我們傳送反饋!我們非常希望聽到您關於模型評估的優先事項。請透過在 Evaluation on the Hub 的社群選項卡或論壇上發帖,讓我們知道您的反饋和功能請求!