法官競技場:基準測試LLM作為評估器
LLM-as-a-Judge 已成為評估LLM應用程式自然語言輸出的流行方法,但我們如何知道哪些模型是最好的法官呢?
我們很高興推出法官競技場——一個讓任何人都能輕鬆並排比較模型作為法官的平臺。只需在測試樣本上執行法官,然後投票選出您最認同的法官。結果將整理成排行榜,顯示出最好的法官。
法官競技場
眾包、隨機的“對戰”已被證明是基準測試LLM的有效方法。LMSys的Chatbot Arena收集了超過200萬張投票,被高度認可為識別最佳語言模型的現場測試。由於LLM評估旨在捕捉人類偏好,因此直接的人類反饋也是確定哪些AI法官最有用的關鍵。
工作原理
- 選擇您的評估樣本
- 讓系統隨機生成一個👩使用者輸入/🤖AI響應對
- 或輸入您自己的自定義樣本
- 兩個LLM法官將
- 給響應打分
- 提供他們打分的理由
審查兩位法官的評估,並投票選出最符合您判斷的那一位
(我們建議先審查分數,再比較評語)
每次投票後,您可以
- 重新生成法官:獲取同一樣本的新評估
- 開始🎲新一輪:隨機生成一個新的樣本進行評估
- 或者,輸入一個新的自定義樣本進行評估
為了避免偏見和潛在的濫用,模型名稱只在投票提交後才會顯示。
已選模型
法官競技場側重於LLM-as-a-Judge方法,因此只包括生成模型(不包括僅輸出分數的分類器模型)。我們對AI法官的篩選標準如下:
- 模型應具備有效評分和評論其他模型輸出的能力。
- 模型應能夠根據不同評分格式和不同標準進行評估。
我們為排行榜選擇了18個最先進的LLM。雖然許多是公開權重的開源模型,我們也包含了專有API模型,以實現開源和閉源方法之間的直接比較。
- OpenAI (GPT-4o, GPT-4 Turbo, GPT-3.5 Turbo)
- Anthropic (Claude 3.5 Sonnet / Haiku, Claude 3 Opus / Sonnet / Haiku)
- Meta (Llama 3.1 Instruct Turbo 405B / 70B / 8B)
- Alibaba (Qwen 2.5 Instruct Turbo 7B / 72B, Qwen 2 Instruct 72B)
- Google (Gemma 2 9B / 27B)
- Mistral (Instruct v0.3 7B, Instruct v0.1 7B)
目前的列表代表了AI評估管道中最常用的模型。如果我們的排行榜被證明有用,我們期待新增更多模型。
排行榜
從法官競技場收集到的投票將彙總並顯示在專門的公共排行榜上。我們為每個模型計算Elo分數,並將每小時更新排行榜。
早期洞察
這些都只是非常早期的結果,但我們目前觀察到的是:
- 專有模型和開源模型之間表現優異者並存:GPT-4 Turbo 僅以微弱優勢領先,但 Llama 和 Qwen 模型極具競爭力,超越了大多數專有模型。
- 小型模型表現出色: Qwen 2.5 7B 和 Llama 3.1 8B 表現異常出色,與大型模型競爭。隨著我們收集更多資料,我們希望能更好地理解模型規模與判斷能力之間的關係。
- 對新興研究的初步經驗支援:LLM-as-a-Judge 文獻表明 Llama 模型非常適合作為基礎模型,在評估基準測試中展現出強大的開箱即用效能。包括 Lynx、Auto-J 和 SFR-LLaMA-3.1-Judge 在內的幾種方法都選擇以 Llama 模型作為起點,然後在進行評估能力方面的後訓練。我們的初步結果與這一趨勢一致,Llama 3.1 70B 和 405B 分別位列第二和第三。
隨著排行榜在未來幾周的形成,我們期待在我們的部落格上分享更多結果分析。
如何貢獻
我們希望法官競技場能成為社群的有用資源。透過為這個排行榜貢獻力量,您將幫助開發者確定在他們的評估管道中使用哪些模型。我們致力於在未來幾個月內分享20%的匿名投票資料,希望能幫助開發者、研究人員和使用者利用我們的發現來構建更一致的評估器。
我們很樂意聽取您的反饋!對於一般功能請求或提交/建議新模型新增到競技場,請在社群選項卡中開啟討論,或在Discord上與我們交流。如果您有任何問題或建議,請隨時透過X/Twitter給我們發訊息。
Atla目前自掏腰包資助此專案。我們正在尋找API積分(無附加條件)來支援這項社群工作——如果您有興趣合作,請透過support@atla-ai.com聯絡我們🤗
鳴謝
感謝所有幫助測試此競技場的人員,並向LMSYS團隊提供靈感致敬。特別感謝 Clémentine Fourrier 和 Hugging Face 團隊的付出!