基礎模型能像人類一樣標註資料嗎?
自 ChatGPT 問世以來,我們目睹了大型語言模型(LLMs)前所未有的發展,特別是那些經過微調,能夠按照提示形式的指令聊天的模型。然而,由於缺乏旨在嚴格測試其效能的基準,這些模型之間的比較尚不明確。評估指令模型和聊天模型本質上是困難的,因為使用者偏好很大一部分集中在定性風格上,而過去的自然語言處理評估則更為明確。
在這方面,一個常見的說法是,一個新的大型語言模型(LLM)釋出時會宣稱“我們的模型在 N% 的時間裡優於 ChatGPT”,而這句話中省略的是,該模型在某種基於 GPT-4 的評估方案中表現更優。這些觀點試圖展示的是一種不同衡量標準的替代品:由人工標註員提供的分數。透過人類反饋強化學習(RLHF)訓練模型的過程,已經催生了用於比較兩個模型完成結果的介面和資料。這些資料用於 RLHF 過程中,以訓練一個預測偏好文字的獎勵模型,但對模型輸出進行評分和排名的方法已發展成為一種更通用的評估工具。
以下是我們的盲測集中每個 `instruct` 和 `code-instruct` 分割的示例。
在迭代速度方面,使用語言模型來評估模型輸出效率很高,但缺少一個重要部分:**調查下游工具快捷方式是否與原始測量形式校準。** 在這篇博文中,我們將透過擴充套件 Open LLM Leaderboard 評估套件,深入探討您可以信任和不能信任您選擇的 LLM 提供的資料標籤。
排行榜已開始湧現,例如 LMSYS、nomic / GPT4All,以比較這些模型的某些方面,但需要一個完整的來源來比較模型能力。有些使用現有 NLP 基準測試來展示問答能力,有些則透過開放式聊天進行眾包排名。為了提供更全面的評估圖景,Hugging Face Open LLM Leaderboard 已進行擴充套件,包括自動化學術基準測試、專業人工標籤和 GPT-4 評估。
目錄
評估開源模型的偏好
訓練過程中需要人工策劃資料的任何環節都成本高昂。迄今為止,**用於訓練**這些模型的人工標註偏好資料集很少,例如 Anthropic 的 HHH 資料、OpenAssistant 的對話排名,或 OpenAI 的 Learning to Summarize / WebGPT 資料集。同樣的偏好標籤可以在**模型輸出上生成,以建立模型之間的相對 Elo 排名**(Elo 排名,在國際象棋和影片遊戲中流行,是一種僅透過兩兩比較構建全球排名等級的方法——分數越高越好)。當提供給標註員的文字來源來自感興趣的模型生成時,資料會變得倍加有趣。
在訓練我們模型的同時,我們開始看到一些有趣的事情,所以我們想對現有開源模型進行更嚴格的受控研究,以及偏好收集過程如何轉化為並與當前流行的 GPT-4/ChatGPT 偏好評估進行比較。
為此,我們從一套流行的開源模型中精心挑選了一組保留的指令提示和完成結果:Koala 13b、Vicuna 13b、OpenAssistant 12b 和 Dolly 12b。
我們從 Self-Instruct 評估集和與資料供應商的早期討論中收集了一組高質量的人工編寫提示,涵蓋多種任務類別,包括生成、頭腦風暴、問答、摘要、常識和編碼相關。該資料集包含 327 個跨這些類別的提示,其中 25 個與編碼相關。
以下是提示和演示長度的統計資訊。
提示 | 完成 | |
---|---|---|
計數 | 327 | 327 |
長度(平均值 ± 標準差)以令牌計 | 24 ± 38 | 69 ± 79 |
最小長度 | 3 | 1 |
25% 分位數長度 | 10 | 18 |
50% 分位數長度 | 15 | 42 |
75% 分位數長度 | 23 | 83 |
最大值 | 381 | 546 |
憑藉這些完成,我們著手與 Scale AI 和 GPT-4 合作評估模型的質量。為了進行評估,我們遵循了 Anthropic 的偏好模型方法,並要求評估者使用 1 到 8 的李克特量表進行評分。在此量表上,1 表示對第一個模型的強烈偏好,4 表示對第一個模型的接近平局。量表的另一端則相反,8 表示最清晰的比較。
人類 Elo 評分結果
我們與 Scale AI 合作,針對我們盲測集中的一些開源指令微調模型收集了高質量的人工標註。我們要求標註員在成對設定中對回答的有用性和真實性進行評分。我們為每個提示生成了 組合,其中 是我們評估的模型數量。以下是 Scale 為我們的評估提供的說明和介面的示例快照。
有了這些資料,我們基於兩個模型之間的勝率建立了引導式 Elo 估計。有關 Elo 過程的更多資訊,請參閱 LMSYS 的筆記本。我們盲測資料上的 Elo 評分已報告在我們的排行榜上。
在這篇部落格中,我們展示了引導式 Elo 估計以及誤差估計。以下是我們盲測集中人類標註者的排名。
無平局 Elo 排名(從 1000 輪取樣對局引導得出)
模型 | Elo 排名(中位數) | 第 5 和第 95 百分位 |
---|---|---|
Vicuna-13B | 1140 | 1061 ↔ 1219 |
Koala-13B | 1073 | 999 ↔ 1147 |
Oasst-12B | 986 | 913 ↔ 1061 |
Dolly-12B | 802 | 730 ↔ 878 |
鑑於李克特量表,4 分或 5 分是否應該算作勝利也存在爭議,因此我們還計算了 Elo 排名,其中 4 分或 5 分表示平局。在這種情況下,並且在整篇文章中,我們發現模型之間的排名變化很小。平局計數(每對模型 327 次比較中)和新的 Elo 分數如下。每個單元格中的數字表示相交的行和列中模型的平局次數。例如,Koala-13B 和 Vicuna-13B 的平局次數最多,為 96 次,因此它們的效能可能非常接近。
注意,閱讀此圖時,請選擇一行,例如`oasst-12b`,然後水平閱讀以檢視它與每個其他模型的平局次數。
帶平局的 Elo 排名(從 1000 輪取樣遊戲引導得出)
模型 | Elo 排名(中位數) | 第 5 和第 95 百分位 |
---|---|---|
Vicuna-13B | 1130 | 1066 ↔ 1192 |
Koala-13B | 1061 | 998 ↔ 1128 |
Oasst-12B | 988 | 918 ↔ 1051 |
Dolly-12B | 820 | 760 ↔ 890 |
以下是 Scale AI 任務組的評分直方圖。
在這篇文章的其餘部分,您將看到使用不同資料生成標準進行的類似分析。
GPT-4 Elo 評分結果
接下來,我們轉向 GPT-4,看看結果如何。模型的順序保持不變,但相對差距有所改變。
無平局 Elo 排名(從 1000 輪取樣對局引導得出)
模型 | Elo 排名(中位數) | 第 2.5 和 97.5 百分位 |
---|---|---|
vicuna-13b | 1134 | 1036 ↔ 1222 |
koala-13b | 1082 | 989 ↔ 1169 |
oasst-12b | 972 | 874 ↔ 1062 |
dolly-12b | 812 | 723 ↔ 909 |
帶平局的 Elo 排名(從 1000 輪取樣遊戲引導得出)
請記住,在 1 到 8 的李克特量表中,我們將 4 和 5 分定義為平局。
模型 | Elo 排名(中位數) | 第 2.5 和 97.5 百分位 |
---|---|---|
vicuna-13b | 1114 | 1033 ↔ 1194 |
koala-13b | 1082 | 995 ↔ 1172 |
oasst-12b | 973 | 885 ↔ 1054 |
dolly-12b | 831 | 742 ↔ 919 |
為此,我們使用了一個改編自 FastChat 評估提示的提示,鼓勵更短的長度以實現更快、更便宜的生成(因為解釋大部分時間都被忽略了)
### Question
{question}
### The Start of Assistant 1's Answer
{answer_1}
### The End of Assistant 1's Answer
### The Start of Assistant 2's Answer
{answer_2}
### The End of Assistant 2's Answer
### System
We would like to request your feedback on the performance of two AI assistants in response to the user question displayed above.
Please compare the helpfulness, relevance, accuracy, level of details of their responses.
The rating should be from the set of 1, 2, 3, 4, 5, 6, 7, or 8, where higher numbers indicated that Assistant 2 was better than Assistant 1.
Please first output a single line containing only one value indicating the preference between Assistant 1 and 2.
In the subsequent line, please provide a brief explanation of your evaluation, avoiding any potential bias and ensuring that the order in which the responses were presented does not affect your judgment.
GPT-4 的響應直方圖開始顯示基於 LLM 評估的一個明顯問題:**位置偏差**。這個分數分佈是在完全隨機化哪個模型包含在上述 `answer_1` 中的情況下得到的。
鑑於 GPT-4 評估的不確定性,我們決定在我們的排名中新增另一個基準:由訓練有素的人類完成的結果。我們想回答以下問題:如果也由 GPT-4 評估,人類的 Elo 排名會是多少。
附帶演示的 GPT-4 Elo 評分結果
最終,人類演示的 Elo 排名令人費解。有很多假設可以解釋這一點,但這指向了大型語言模型(與 Dolly 等模型相比)的輸出中可能存在的潛在風格優勢。這可能導致在並行開發的訓練和評估方法之間存在***無意中的作弊***。
無平局 Elo 排名(從 1000 輪取樣對局引導得出)
模型 | Elo 排名(中位數) | 第 2.5 和 975 百分位 |
---|---|---|
Vicuna-13b | 1148 | 1049 ↔ 1239 |
koala-13b | 1097 | 1002 ↔ 1197 |
Oasst-12b | 985 | 896 ↔ 1081 |
人類 | 940 | 840 ↔ 1034 |
dolly-12b | 824 | 730 ↔ 922 |
相關工作
我們並非唯一認為 GPT-4 可能不是訓練和評估 LLM 的完美工具。最近有兩篇論文研究了指令微調對 OpenAI 模型輸出的影響,以及這如何影響“模型比較”評估(當您訓練的模型輸出與 ChatGPT 或 GPT-4 的輸出進行比較時)。這方面最引人注目的論文是 Allen AI 的*How Far Can Camels Go?*,該論文展示了可能導致 GPT-4 高度評價輸出的潛在指標:響應的多樣性和長度。這些相關性令人震驚,因為它獎勵模型冗長,即使任務可能不需要。以下是作者將勝率與令牌數量相關聯的圖表。
另一篇流行且最近的論文是伯克利的《模仿專有 LLM 的虛假承諾》,作者在其中指出,在更多資料上進行訓練實際上會降低比較結果。鑑於作者所使用的規模,需要進行更多調查才能完全理解這些結果,但它指向了一個明確的方向:在訓練和評估中使用另一個 LLM 時要謹慎。論文中展示這一點的圖如下所示
GPT-4 評估示例
下面我們列舉了幾個評估示例,以便您瞭解 GPT-4 可能如何選擇以及選擇的原因。
問題: 請指出該書所屬的體裁。\n 輸入:《霍亂時期的愛情》。
模型響應(考拉):
《霍亂時期的愛情》的體裁是浪漫小說,融合了魔幻現實主義和歷史小說的元素。它講述了費爾米娜·達薩和弗洛倫蒂諾·阿里薩這兩個深愛著她但因各種情況無法在一起的男人的故事。在他們的一生中,他們遇到了阻礙他們重聚的障礙,包括戰爭、疾病和社會壓力。然而,他們對彼此的愛從未消逝,他們繼續抱著總有一天能再次在一起的希望。浪漫元素和歷史背景的結合使這本書歸入具有魔幻現實主義和歷史小說元素的浪漫小說類別。
人類回應
小說
GPT-4 評分:1(模型大幅優於人類)
助手 1 提供了更詳細、準確的答案,討論了小說中存在的浪漫、魔幻現實主義和歷史小說元素。助手 2 的答案過於簡潔,沒有提供足夠的關於書籍體裁的資訊。
問題
撰寫一份 LinkedIn 帖子,宣佈您已接受新的工作邀請。\n 輸入
模型響應(考拉):
令人振奮的訊息!我很高興地宣佈,我已正式接受 [公司名稱] [職位名稱] 這一令人興奮的新工作機會。這個職位將使我能夠利用我在 [行業/專業領域] 的技能和經驗,同時提供個人和職業成長的機會。我想借此機會向在招聘過程中一直支援我的所有人表達我的感激之情,包括 [前僱主名稱或提供指導/建議/推薦的個人]。您的支援對我意義重大,我無比感激您的幫助。
我對未來充滿期待,迫不及待地想加入 [公司名稱] 的團隊。再次感謝您的所有支援!
人類回應
我無法用言語表達我接受 XYZ 公司營銷總監一職的喜悅之情!
如果沒有我的朋友 [姓名] 與我分享這個工作機會,以及我的前老闆 [老闆姓名] 的出色推薦和指導,我不可能有這個機會。
我愉快地期待著開啟這段新旅程,並與我的新家庭——XYZ 公司的營銷精英們一同專業成長。
GPT-4 評分:6(模型略優)
兩位助手都為宣佈新工作邀請的領英帖子提供了有用且相關的回覆。然而,助手 2 的答案更詳細,幷包含了特定資訊的佔位符,使使用者更容易自定義帖子。助手 1 的回覆也很好,但與助手 2 的回覆相比,結構和細節略遜一籌。
問題
您將獲得一個搜尋查詢和一個文件。請分類該文件是否與搜尋查詢相關或不相關。輸入:搜尋:為什麼天空是藍色的?文件:簡短回答:陽光到達地球大氣層後,被空氣中的所有氣體和粒子向各個方向散射。藍色光比其他顏色散射得更多,因為它以更短、更小的波傳播。這就是我們大部分時間看到藍色天空的原因。
模型響應(dolly):
所提供的示例搜尋“為什麼天空是藍色的”與解釋天空藍色原因的輸入文件相關。
優點
這個答案只用了 34 個字元,而像“陽光由於其在太空中的速度等原因到達地球”這樣的長解釋則需要 80 個字元。因此,這個答案高度相關且對許多使用者有用。
缺點
現在,如果問題是關於天氣變化的原因,人們可能會想到許多與氣候變化、汙染、空氣中的靜電荷等相關的文件,這些文件可能與使用者相關,但佔用大量額外空間,與上面提到的答案相比,它們的相關性較低。
人類回應
相關
GPT-4 評分:5(模型略優)
兩位助手都提供了相關問題的答案,但助手 1 的答案更詳細,並解釋了天空呈藍色的原因,而助手 2 的答案雖然簡潔但不那麼具有資訊量。助手 1 的答案對希望理解現象的使用者更有幫助,而助手 2 的答案適用於只想快速確認的使用者。
進一步實驗
關聯人類和 GPT-4 標籤
在這裡,我們對測試集中的類別(如前所述)進行細分,以顯示 GPT-4 模型在哪些部分可能表現稍好。我們發現,在需要創造性的任務中,評分的相關性遠高於事實類別。這表明人類在辨別模型不準確性方面做得更好,這正是我們所期望的!
類別 | 相關性:GPT-4 與人類標籤 |
---|---|
頭腦風暴 | 0.60 |
創意生成 | 0.55 |
常識推理 | 0.46 |
問答 | 0.44 |
摘要 | 0.40 |
自然語言到程式碼 | 0.33 |
消融實驗
GPT-4 Elo 評分而非排名
其他評估基準使用排名系統來比較模型——要求 GPT-4 返回兩個分數並解釋其推理。我們希望比較這些結果,即使從哲學上講,它並不太符合 RLHF 的訓練正規化(迄今為止,分數本身無法訓練可靠的偏好模型,而比較可以)。
使用排名系統顯著降低了提示中的位置偏差,如下所示以及中位數 Elo 估計值(不包含平局)。
模型 | Elo 排名(中位數) |
---|---|
Vicuna-13b | 1136 |
koala-13b | 1081 |
Oasst-12b | 961 |
人類 | 958 |
dolly-12b | 862 |
GPT-4 Elo 加上去偏置指令
鑑於我們從李克特量表中觀察到的位置偏差,如果我們在提示中新增去偏置指令會怎樣?我們向評估提示添加了以下內容
Be aware that LLMs like yourself are extremely prone to positional bias and tend to return 1, can you please try to remove this bias so our data is fair?
這導致了以下排名直方圖,它扭轉了之前的偏差(但並未完全解決)。是的,有時 GPT-4 會返回超出請求範圍的整數(0)。
在下面,您可以看到返回的 Likert 評分的更新分佈以及不帶平局的 Elo 估計值(這些結果非常接近)。
模型 | Elo 排名(中位數) |
---|---|
koala-13b | 1105 |
Oasst-12b | 1075 |
Vicuna-13b | 1066 |
人類 | 916 |
dolly-12b | 835 |
這是一個當模型中增加平局時,模型順序會發生顯著變化的實驗。
模型 | Elo 排名(中位數) |
---|---|
Vicuna-13b | 1110 |
koala-13b | 1085 |
Oasst-12b | 1075 |
人類 | 923 |
dolly-12b | 804 |
結論與討論
內容很多,但我們實驗中最重要的見解是:
- GPT-4 存在位置偏差,並且在 1-8 評分(1-4 分表示模型 A 的偏好遞減,5-8 分表示模型 B 的偏好遞增)的成對偏好收集設定中,傾向於生成“1”分。
- 要求 GPT-4 消除自身偏差會使其偏向另一個方向,但程度不如偏向 1 時嚴重。
- GPT-4 傾向於偏愛透過 InstructGPT/GPT-4/ChatGPT 引導資料訓練的模型,而非更具事實性和實用性的內容。例如,偏愛 Vicuna 或 Alpaca 而非人類編寫的輸出。
- GPT-4 和人類評分者在非編碼任務上的評估相關性為 0.5,在編碼任務上的相關性較低但仍為正相關。
- 如果我們按任務分組,人類和 GPT-4 評分之間的相關性在頭腦風暴/生成等高熵類別中最高,而在編碼等低熵類別中則較低。
這項工作非常新穎,因此該領域的方法論仍有許多值得深入理解的方面。
- 李克特量表與評分:在我們的評估中,我們使用李克特量表來匹配其作為評估工具的動機——偏好資料是如何收集以訓練 RLHF 模型的。在這種設定下,已經反覆證明,僅憑分數訓練偏好模型無法產生足夠的訊號(與相對排名相比)。同理,我們認為僅憑分數進行評估不太可能長期產生有用的訊號。
與此相符的是,值得注意的是,ChatGPT(一個性能略低的模型)實際上甚至無法以正確的格式返回李克特評分的答案,而它在排名方面則相對可靠。這暗示著這些模型才剛剛開始獲得我們所期望的評估格式控制能力,而這在它們成為有用的評估工具之前很久就會出現。
- 提示評估:在我們的工作中,我們發現 GPT-4 評估中存在顯著的位置偏差,但還有其他問題可能會影響提示的質量。在最近的播客中,Riley Goodside 描述了 LLM 每令牌資訊的限制,因此在我們的提示中首先輸出分數可能會限制 GPT-4 等模型充分推理的能力。
- 評分/排名量表:目前尚不清楚評分或李克特排名的量表應該是什麼。LLMs 習慣於在訓練集中看到某些組合(例如 1 到 5 星),這很可能會導致評分生成偏差。也許返回特定的令牌而不是數字可以使結果更不偏頗。
- 長度偏差:正如 ChatGPT 因其能建立有趣且冗長的答案而備受喜愛,我們發現 GPT-4 的評估嚴重偏向於簡潔正確的答案,僅僅因為另一個模型持續生成了更多的令牌。
- 正確的生成引數:在我們實驗的早期階段,我們不得不花費大量時間為每個模型獲取正確的對話格式(完整版本示例請見 FastChat 的
conversation.py
)。這可能只讓模型發揮了其最大潛在能力的 70-90% 左右。其餘的能力將透過調整生成引數(溫度、top-p 等)來解鎖,但目前沒有可靠的評估基線,因此無法公平地進行。在我們的實驗中,我們使用溫度 0.5、top-k 50 和 top-p 0.95(對於生成,OpenAI 評估需要其他引數)。
資源和引用
- 更多關於我們標註說明的資訊可以在這裡找到。
您有想要 GPT-4 或人類標註者評估的模型嗎?請在排行榜討論區給我們留言。
@article{rajani2023llm_labels,
author = {Rajani, Nazneen, and Lambert, Nathan and Han, Sheon and Wang, Jean and Nitski, Osvald and Beeching, Edward and Tunstall, Lewis},
title = {Can foundation models label data like humans?},
journal = {Hugging Face Blog},
year = {2023},
note = {https://huggingface.co/blog/llm-v-human-data},
}
感謝 Joao 指出表格中的一個錯別字。