推出開放式思維鏈排行榜

釋出於 2024 年 4 月 23 日

在 GitHub 上更新

贊

思維鏈提示正在成為 LLM 應用程式和代理的一種強大而有效的設計模式。思維鏈提示的基本思想是讓模型在回答問題或做出決策之前生成一步一步的解決方案（“推理軌跡”）。透過開放式思維鏈排行榜（Open CoT Leaderboard），我們正在追蹤 LLM 在具有挑戰性的推理任務中生成有效思維鏈軌跡的能力。

與大多數基於效能的排行榜不同，我們不衡量模型在給定任務上實現的絕對準確性，而是衡量有無思維鏈提示時的準確性差異。

accuracy gain Δ = accuracy with CoT – accuracy w/o CoT.

這使我們能夠真正檢查思維鏈對模型準確性的影響。

注意：在沒有 CoT 提示的情況下，我們使用對數似然準確性來評估模型在多項選擇評估中的表現。

設立這樣一個思維鏈排行榜的動機是什麼？

思維鏈提示是一種普遍適用的提示策略，可以提高基於 LLM 的應用程式和代理的可解釋性和準確性（例如，參見此集合瞭解最新研究和實現）。藉助 Langchain 或 LMQL 等框架，在您的應用程式中插入複雜的推理鏈變得簡單。但即使您以前從未聽說過思維鏈，在使用聊天機器人時，您可能已經注意到它傾向於在回答您的查詢之前一步一步地進行。因此，對 LLM 生成有效思維鏈軌跡的能力進行系統、最新的比較，可以為開發者和使用者選擇模型時提供參考。

隨著時間的推移，靜態的“基於準確性”的基準測試可能會變得資訊量不足：模型得分高是因為其卓越的技能，還是因為它在訓練期間看到了正確答案，抑或是因為它是在受此基準測試指導的競爭環境中開發的？這些廣為人知的問題透過最近的評估方法得到解決，例如聊天機器人競技場、使用 LLM 作為評判者或使用程式化生成任務的動態基準測試。我們希望開放式思維鏈排行榜能為這些努力做出貢獻，特別是透過對訓練資料汙染的更強健性：知道一個問題的答案並不能確保一個人能夠有效地對其進行推理。

使用了哪些任務？

開放式思維鏈排行榜評估 LLM 生成有效思維鏈推理軌跡的能力，用於以下任務：

LogiQA（原始版本的新翻譯，以及2.0 版本的新示例）
LSAT 資料集（包括分析推理、邏輯推理和閱讀理解的子集）

除了 LogiQA 的原始版本外，所有這些任務都是 AGIEval 基準測試的一部分，並已作為 logikon-bench 重新發布。

我們選擇這些任務是因為它們

通用，即可以透過推理解決，並且只需要常識知識；
即使對於最強大的 LLM 來說仍然相對困難（為透過思維鏈改進留下了足夠的空間）；
以前曾作為 AI 基準測試引入（在 AGIEval 中），並被廣泛使用（例如，在 Nous 基準測試套件中）。

所有任務都以多項選擇題的形式呈現，答案選項在提示中列出。

我們使用以下提示模板來評估基線和 CoT 準確性——推理軌跡（以 Reasoning 開頭）僅在“使用 CoT”的情況下新增

Answer the following question about the given passage. Base your answer on the reasoning below.

Passage: <passage>
    
Question: <question>

A. <choice1>
B. <choice2>
…

Reasoning: <reasoning>
        
Answer:

思維鏈軌跡是如何生成的？

[#cot-generation]

關於思維鏈提示的文獻在過去一年中呈爆炸式增長，CoT 的提示策略之豐富（例如，涉及解碼、提示措辭、提示鏈、分解、聚合和推理軌跡的修訂）已經令人難以置信。

為了應對這種多樣性，開放式思維鏈排行榜背後的評估流水線透過模組化且易於擴充套件的提示鏈實現了 CoT 的生成。到目前為止，我們已經實現了兩種相當簡單的提示策略：

經典：問題呈現後，跟著“讓我們一步一步思考”的指令。
反思：問題呈現後，指令要求在逐步解決問題之前對問題進行一般性反思。

讓我們看一個例子。以下問題來自 LSAT 邏輯推理基準測試。

Editorial: The structure of the present school calendar was established to satisfy the requirements of early-twentieth-century agricultural life. In those days, farmers needed their children to have long breaks during which they could remain at home and help with the harvest. The contemporary school year is thus made up of periods of study interspersed with long breaks. But agricultural life no longer occupies most of our citizens, so we can now make changes that serve the interests of children. Therefore, long breaks should be removed from the school calendar.

Which one of the following is an assumption on which the editorial's argument depends?
A) A change in the present school calendar that shortened breaks would serve the interests of agricultural life.
B) Children of farmers need to continue observing a school calendar made up of periods of study interspersed with long breaks.
C) Long breaks in the school calendar should be replaced with breaks that are no longer than workers' average vacations.
D) A school calendar made up of periods of study without long breaks would serve the interests of children more than a school calendar with long breaks.
E) During long breaks children have a tendency to forget what they have learned.

Mixtral-8x7B-Instruct-v0.1 在生成以下思維鏈軌跡方面表現相當不錯：

採用經典提示策略	採用反思提示策略
社論認為，當前的學校日曆，帶有長假期，是為了適應農業生活而設計的，但現在應該改變，因為農業生活不再佔據我們大多數公民。它得出結論，長假期應該從學校日曆中刪除。該論證所依賴的假設是，從學校日曆中取消長假期會比現有日曆更符合兒童的利益。這在社論中沒有明確說明，但這是支援擬議改變的潛在假設。因此，正確答案是：D）由不帶長假期的學習時期組成的學校日曆會比帶有長假期的學校日曆更符合兒童的利益。	抽象的決策問題是識別社論論證所依賴的假設。這類問題的常見錯誤包括誤解論證的前提或結論。忽略識別假設的特定要求。將假設與結論或前提混淆。解決這個問題的計劃可以是：識別論證的前提和結論。列出可能彌合前提和結論之間差距的假設。評估每個假設，看它是否是論證所必需的。按照計劃一步一步解決問題論證的前提是：現有學校日曆的結構是為了滿足20世紀初期農業生活的需求而建立的。農業生活不再佔據我們大多數公民。論證的結論是：長假期應該從學校日曆中刪除。可能的假設包括：由不帶長假期的學習時期組成的學校日曆會比帶有長假期的學校日曆更符合兒童的利益。農民的孩子在長假期間不再需要待在家裡幫助收割。對現有學校日曆進行縮短假期的更改不會符合農業生活的利益。評估每個假設論證不依賴於農民的孩子在長假期間不再需要待在家裡幫助收割的假設，因為論證是關於所有兒童的利益，而不僅僅是農民的孩子的利益。論證不依賴於對現有學校日曆進行縮短假期的更改不會符合農業生活利益的假設，因為論證是關於兒童的利益，而不是農業生活的利益。論證確實依賴於由不帶長假期的學習時期組成的學校日曆會比帶有長假期的學校日曆更符合兒童的利益的假設。這是支援結論的假設。因此，社論論證所依賴的假設是D) 由不帶長假期的學習時期組成的學校日曆會比帶有長假期的學校日曆更符合兒童的利益。

採用經典提示策略

採用反思提示策略

社論認為，當前的學校日曆，帶有長假期，是為了適應農業生活而設計的，但現在應該改變，因為農業生活不再佔據我們大多數公民。它得出結論，長假期應該從學校日曆中刪除。

該論證所依賴的假設是，從學校日曆中取消長假期會比現有日曆更符合兒童的利益。這在社論中沒有明確說明，但這是支援擬議改變的潛在假設。

因此，正確答案是：D）由不帶長假期的學習時期組成的學校日曆會比帶有長假期的學校日曆更符合兒童的利益。

抽象的決策問題是識別社論論證所依賴的假設。

這類問題的常見錯誤包括

誤解論證的前提或結論。
忽略識別假設的特定要求。
將假設與結論或前提混淆。

解決這個問題的計劃可以是：

識別論證的前提和結論。
列出可能彌合前提和結論之間差距的假設。
評估每個假設，看它是否是論證所必需的。

按照計劃一步一步解決問題

論證的前提是：
- 現有學校日曆的結構是為了滿足20世紀初期農業生活的需求而建立的。
- 農業生活不再佔據我們大多數公民。
論證的結論是：
- 長假期應該從學校日曆中刪除。
可能的假設包括：
- 由不帶長假期的學習時期組成的學校日曆會比帶有長假期的學校日曆更符合兒童的利益。
- 農民的孩子在長假期間不再需要待在家裡幫助收割。
- 對現有學校日曆進行縮短假期的更改不會符合農業生活的利益。
評估每個假設
- 論證不依賴於農民的孩子在長假期間不再需要待在家裡幫助收割的假設，因為論證是關於所有兒童的利益，而不僅僅是農民的孩子的利益。
- 論證不依賴於對現有學校日曆進行縮短假期的更改不會符合農業生活利益的假設，因為論證是關於兒童的利益，而不是農業生活的利益。
- 論證確實依賴於由不帶長假期的學習時期組成的學校日曆會比帶有長假期的學校日曆更符合兒童的利益的假設。這是支援結論的假設。

因此，社論論證所依賴的假設是D) 由不帶長假期的學習時期組成的學校日曆會比帶有長假期的學校日曆更符合兒童的利益。

我們的兩種提示策略——經典和反思——都結合並運行了多個解碼引數：

貪婪解碼。
集束搜尋 (n=2)。
取樣 (T=.3)。

這使我們總共獲得了六種“CoT 生成模式”。當我們評估一個模型時，我們會讓它為測試資料集中的每個示例，在每種模式下生成一個思維鏈軌跡。然後，生成的軌跡會被插入到上面所示的提示模板中，我們用它來給模型評分。相應地，我們獲得了六個不同的帶思維鏈的準確性數值分數（即每種模式一個）。在開放式思維鏈排行榜中，我們報告（針對每個模型/任務）在任何模式下實現的最佳邊際準確性增益。

目前的主要發現是什麼？

我們正在透過評估越來越多的模型來逐步擴充套件開放式思維鏈排行榜，但目前的結果（模型數量=30）已經提供了一些有趣的見解。

強大的“小巨人”：我們非常高興地看到，相對較小的（7B）開源 LLM 能夠進行有效的、即能提高準確性的思維鏈推理，在某些情況下甚至比大型模型表現更好。🎉 例如，像 Phi-2 這樣的小型模型從新增的 CoT 軌跡中受益比 Mixtral 模型更多。
指令微調和聊天微調有所幫助：經過微調的模型比其對應的基礎模型得分高得多。更具體地說，微調可以提高沒有 CoT 的基線準確性，也可以提高透過 CoT 實現的邊際準確性增益。
CoT 的可變和模糊效應：深入研究後，我們發現沒有單一的首選或卓越的 CoT 生成模式。對一個模型和一項任務最有效的方法可能對另一個模型或另一項任務無效。有時 CoT 會降低準確性而不是提高準確性。我們將其視為一個提醒，即尋找一種普遍有效、可靠和穩健的 CoT 實現仍然是一個具有挑戰性的問題。

接下來有哪些步驟？——以及如何貢獻。

我們計劃在不同方向上前進。歡迎對所有這些努力做出貢獻。

首先，我們很樂意評估您的模型！您可以使用“提交”選項卡，在開放式思維鏈排行榜空間上📬提交任何開源 LLM 進行評估！

然後，我們希望在以下編碼和資料分析任務上獲得幫助。

對完整的評估結果進行深入分析。例如，對生成的 CoT 軌跡進行定性分析，以檢查它們是否實際指向了正確的答案選項。我們建立了一個筆記本，展示瞭如何訪問和探索支援開放式思維鏈排行榜的評估結果和推理軌跡。您可以在此基礎上構建，並在相應的 repo（當然也可以在其他地方）分享您自己的分析。歡迎提出建議或問題。如果您計劃將資料用於研究專案並希望獲得反饋，請給我們留言。
建立開放式 CoT 控制面板。開放式 CoT 排行榜旨在根據邊際準確性增益對模型進行排名。它不顯示基線準確性、方差、不同 CoT 生成模式的得分、生成推理軌跡的屬性（例如，長度）等。我們認為，用一個控制面板（例如，作為額外的選項卡或獨立的 HF 空間）來補充排行榜將非常有資訊量，該控制面板可以呈現所有這些資訊並供使用者互動式探索。如果您有興趣（與我們合作或獨立）構建這樣的開放式 CoT 控制面板，請與我們聯絡。
更多 CoT 鏈。我們正在考慮實現進一步的 CoT 生成模式。有希望的候選方案包括自洽性、思維樹、自檢或辯論。想幫助我們嗎？請聯絡我們！（🤫：為什麼不選擇這樣的專案作為您的碩士或學士論文呢？）
更多工和測試資料集。開放式 CoT 排行榜可以說建立在相對狹窄的基準集上。一旦我們有空閒的計算資源，我們希望納入更多具有挑戰性的推理任務。我們很高興能瞭解您希望在開放式 CoT 排行榜中看到哪些任務。

我們可以在這裡交流想法並進行合作

對於非技術性建議和反饋，請加入排行榜 HF 空間上的討論。
對於技術反饋和問題，請在我們的 GitHub 倉庫中提出問題。

期待您的來信！

更多部落格文章

使用 Big Bench Audio 評估音訊推理能力

作者： 2024年12月20日訪客 • 23

介紹日語大語言模型開放排行榜

作者： 2024年11月20日訪客 • 38

社群

透過拖放到文字輸入框、貼上或點選此處上傳圖片、音訊和影片。

點選或貼上此處以上傳圖片

· 註冊或登入發表評論

贊