讓大模型辯論:首屆多語種大語言模型辯論賽

釋出於 2024 年 11 月 20 日
在 GitHub 上更新

在過去的一年中,當前的靜態評估和使用者驅動的競技場已經顯示出其侷限性和偏見。在這裡,我們探索一種新穎的大語言模型評估方法:辯論。從公元前 5 世紀雅典公民大會的辯論到今天的世界大學辯論錦標賽,辯論在整個歷史中都是展示推理能力和語言能力的絕佳方式。當今的大語言模型是否展現出與人類相似的辯論技巧?目前哪個模型最擅長辯論?當模型相互辯論時,我們能從中學到什麼?為了回答這些問題,BAAI 建立了一個“辯論競技場”,讓大模型相互競爭。目前,它支援英語、中文、阿拉伯語和韓語的辯論比賽。

FlagEval-Debate

背景:重新定義大語言模型評估標準的必要性

多模態和多語種技術的發展暴露了傳統靜態評估協議在捕捉大語言模型在複雜互動場景中效能的侷限性。受 OpenAI 的“透過辯論實現 AI 安全”框架(該框架強調透過多模型互動增強模型的推理和邏輯能力([1]))的啟發,BAAI 的 FlagEval 辯論平臺引入了一種動態評估方法來解決這些侷限。最近的研究表明,多智慧體辯論在提高模型的推理能力和事實準確性方面具有潛力。例如,研究表明多智慧體互動可以顯著提高模型在邏輯推理和事實判斷上的一致性和準確性([2]),而其他研究則指出多模型辯論能鼓勵模型生成更真實、更連貫的回答([3])。雖然像 LMSYS Chatbot Arena 這樣的現有平臺為多模型互動提供了基礎設定,但它們在實際評估中存在某些侷限性:

  • 缺乏區分度:許多模型對抗結果為平局,缺乏顯著的效能差異。這需要大量的使用者投票來確保統計的穩定性和準確性,從而降低了評估效率,並妨礙了對模型相對優劣的快速比較。
  • 孤立生成現象:在這些平臺中,模型並非真正互動;相反,它們根據使用者輸入獨立生成回答,而沒有與對方的輸出進行互動。這種單向生成依賴於隨機的使用者對話,使得難以探究模型推理和邏輯的邊界,也難以在複雜的對抗性情境中評估其效能。
  • 潛在的投票偏見:由於模型通常表現出獨特的風格,使用者的投票通常偏愛特定的模型生成風格或格式,而不是評估內容本身。沒有專家標註,這些偏見會扭曲評估結果,使客觀評估模型能力變得複雜,並降低了使用者驅動判斷的可靠性。

BAAI 的 FlagEval 辯論平臺透過引入真正的多模型辯論來解決這些挑戰。模型進行直接對抗,展示其推理過程和深度。這使得評估者可以觀察和比較模型之間在觀點、邏輯推理和論證策略上的差異。該平臺的多語種支援和即時除錯功能使使用者能夠在真實和互動的環境中研究模型優勢,最終提供更具區分度和深度的評估結果。

FlagEval 辯論賽的主要特點與創新

多語種支援:實現全面的全球評估

FlagEval 辯論賽支援中文、英文、韓文和阿拉伯文,涵蓋了多種書寫系統和語言。這種多語種能力為模型在跨文化背景下表現提供了平臺,並測試了它們在不同語言環境中的適應性和溝通效果。這滿足了全球對多語種大語言模型評估的需求。

開發者定製:靈活的模型配置與最佳化

為增強公平性和靈活性,FlagEval 辯論賽提供開發者定製功能,允許參賽模型團隊根據其模型的特點和任務要求微調引數、策略和對話風格。此功能使開發者能夠最佳化其模型在辯論中的表現,展示優勢同時發現改進之處。即時反饋迴圈促進了持續最佳化,使模型在競爭性評估中脫穎而出。

雙重評估指標:專家評審與使用者反饋

FlagEval 辯論賽採用獨特的雙重評估系統,結合專家評審和使用者反饋,從技術和體驗兩個角度評估模型。

  • 專家評審:我們邀請了頂級的辯論專家,從邏輯推理、論證深度和語言表達等維度對模型進行嚴格評估。這些專家提供客觀、詳細的評估,確保評估結果具有高度的專業可信度。
  • 使用者反饋:同時,平臺透過觀眾投票促進使用者參與,使用者可以根據個人偏好和互動體驗為模型打分。這些反饋反映了模型在實際使用者互動中的接受度和有效性,補充了專家評估。整合使用者視角確保評估與真實應用場景保持一致。

實驗結果:評估多模型辯論的影響

在 2024 年第三季度,我們在 FlagEval 辯論平臺上進行了廣泛的實驗,以評估多模型辯論對模型邏輯推理和差異化表現的影響。實驗得出了一些關鍵見解:1. 大多數現有模型都能參與辯論 我們的實驗表明,所有參賽模型,包括閉源變體,都能有效地參與辯論任務。這表明,不同架構和訓練正規化的模型都具備在多模型環境中進行邏輯推理和互動對話所需的能力。這種廣泛的適用性增強了 FlagEval 辯論賽作為綜合評估平臺的相關性。我們透過經驗觀察到,一些小型開源模型在保持連貫性和緊扣主題方面仍面臨挑戰。

  1. 模型在對抗條件下表現出強烈差異 互動對抗揭示了推理邏輯、論證技巧和語言使用方面的顯著差異,尤其是在對抗條件下。然而,在釋出這些細緻的發現之前,我們正在等待更多的專家評估。透過促進直接互動,FlagEval 辯論賽能夠更細緻地評估模型的邏輯推理、批判性思維和修辭策略,而無需依賴大型的預存資料集。如下圖所示,即使只有幾百場比賽,很明顯 Model_7 的獲勝次數顯著更高,而 Model_3 累計了更多的失敗次數。在傳統的競技場式和一對一評估中,這些模型之間的效能差距往往不那麼明顯,通常需要大量的比賽才能得出結論性結果。與 LMSYS Chatbot Arena 類似,FlagEval 辯論賽也接收新模型提供商的評估請求。由於這些提供商仍在對其模型進行微調,我們在微調完成並獲得足夠的使用者投票和專家評審之前,會保持模型匿名。
image
  1. 模型有巨大的改進潛力 在開發的早期階段,我們觀察到模型在辯論中會犯各種型別的錯誤。例如,一個模型會同時生成正方和反方的內容,而另一些模型即使在不恰當的情況下也會表現出強制同意。例如:

    {
    "model_A": 
    "Affirmative: I believe that a Dutch man fathering 1,000 children through sperm donation is a remarkable gesture. First, he provides hope and opportunities for couples who long for children but face challenges. Secondly, he demonstrates selflessness and kindness, showing a willingness to give part of his life for others. For the mothers carrying his children, it’s a valuable gift in their lives. His actions bring love and hope to the world.
    
    Negative: However, this action also raises moral and legal concerns. Having so many children from one individual could lead to family conflicts and legal disputes. Additionally, how will they handle the responsibilities of supporting and educating so many children? This could also place a burden on society. So, even if done with good intentions, the potential consequences of such actions need careful consideration.",
    }
    

    我們透過最佳化系統提示要求和調整輸入格式解決了這些問題,儘管每個模型仍然表現出獨特的錯誤模式。同時,實驗也突顯了模型增強的巨大機會。效能差異表明在推理鏈、語言表達能力和對抗策略方面有改進的潛力。我們鼓勵模型建立者使用我們的辯論調優服務來完善和最佳化他們模型的辯論效能!

  2. 更強的評估:結合專家反饋與使用者偏好 我們的研究結果還表明,僅僅依靠使用者偏好進行評估可能會引入偏見並限制性能評估的準確性。為了緩解這種情況,FlagEval 辯論賽的雙重評估系統整合了專家評審,以提供一個平衡的視角。透過將可靠的專家評估與主觀的使用者反饋相結合,我們旨在確保一個更公平、更全面的評估,使結果既符合技術專業知識,也符合人類偏好。

如何將您的模型加入到這場比賽中?

大模型辯論賽的規劃如下圖所示。圖片

初步實驗表明,參賽辯論模型的效能在及時最佳化後會有顯著提升。歡迎模型提供商和建立者點選連結辯論賽報名表或傳送郵件至flageval@baai.ac.cn。透過報名參加模型辯論評估,FlagEval 將提供免費的模型辯論除錯服務。以下公司已經參與了我們的辯論:

公司 模型 除錯方法
OpenAI o1-preview 自行除錯
OpenAI o1-mini 自行除錯
OpenAI GPT-4o-mini 自行除錯
OpenAI GPT-4o 自行除錯
Anthropic claude-3-5-sonnet 自行除錯
月之暗面 step-2-16k-f 提供商除錯
百度 ERNIE-4.0-Turbo 提供商除錯
字節跳動 Doubao-pro 提供商除錯
阿里巴巴 qwen2.5-72b-instruct 自行除錯
騰訊 Hunyuan-Turbo 提供商除錯
零一萬物 Yi-Lightning 自行除錯
智譜 AI GLM-4-plus 提供商除錯
深度求索 DeepSeek_V2.5 自行除錯
  • 自行除錯:指我們為辯論配置和最佳化的模型。
  • 提供商除錯:指由模型提供商自己除錯和最佳化的模型。

結論

FlagEval 辯論賽代表了大語言模型評估方法的重大進步。透過整合多語種支援、開發者定製和雙重評估系統,它為在互動、真實世界場景中評估模型提供了一個強大的框架。展望未來,BAAI 致力於完善此平臺,以促進創新、增強評估方法,並推動 AI 實踐的標準化。目標是為開發者和使用者提供一個具有前瞻性的評估生態系統,加速先進大語言模型的演進和部署。

關於 BAAI 和 FlagEval

北京智源人工智慧研究院(BAAI)成立於 2018 年 11 月,是一家開創性的非營利性研究機構,主要專注於人工智慧領域的原始創新和核心技術。其目標是推動 AI 理論、方法、工具、系統和應用方面的革命性和顛覆性突破。在 BAAI 內部,FlagEval 是一個專門從事大規模 AI 模型評估的團隊。FlagEval 於 2023 年推出了其大模型評估平臺,至今已覆蓋全球 800 多個模型。該平臺評估超過 40 個維度,包括推理、數學技能和任務解決能力。FlagEval 最近推出了用於模型對模型競賽的新平臺,進一步加強了其評估框架並推進了 AI 評估方法論。它已被公認為推動 AI 評估標準和促進學術界與產業界合作的領導者。

參考文獻

[1] Irving G, Christiano P, Amodei D. AI safety via debate. arXiv preprint arXiv:1805.00899, 2018.

[2] [ICML 2024] Du Y, Li S, Torralba A, et al. Improving factuality and reasoning in language models through multiagent debate. arXiv preprint arXiv:2305.14325, 2023.

[3] [ICML 2024 Best] Khan A, Hughes J, Valentine D, et al. Debating with more persuasive llms leads to more truthful answers. arXiv preprint arXiv:2402.06782, 2024.

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.