回到未來:評估人工智慧代理在預測未來事件方面的能力

釋出於 2025 年 7 月 17 日
在 GitHub 上更新

人工智慧的未來

目前大多數人工智慧基準都側重於回答關於過去的問題,無論是透過在現有知識(以靜態方式,如 HLE 或 GPQA,或增強方式,如 BrowseComp 或 GAIA)上測試模型,還是測試先前解決的問題(如 PaperBench、DABStep 或大多數編碼評估)。然而,我們相信,更有價值的人工智慧,以及最終的通用人工智慧,將透過其利用過去預測未來有趣方面的能力來區分,而不僅僅是複述舊事實。

預測未來事件是一項複雜而全面的任務:它需要複雜的推理、綜合、權衡機率和真正的理解,而不是針對現有資訊進行模式匹配或搜尋。評估模型預測未來結果的能力,無論是在科學、經濟、地緣政治還是技術領域,都考驗著能夠創造現實世界價值的智慧。

除了其固有的重要性之外,這種基於預測的方法還解決了當前評估和基準面臨的許多方法學問題。衡量固定測試集準確性的傳統基準不可避免地受到可能的資料汙染的影響,如果沒有模型完整的可重現訓練管道的訪問許可權,很難信任結果。現在最嚴肅的評估工作將其測試集完全保密,在評估者和潛在的“遊戲排行榜”機制(Singh 等,2025)之間造成了令人沮喪的軍備競賽。

預測從設計上就**不可能被汙染**,因為你無法對尚不存在的資料進行訓練!這創造了一個公平的競爭環境,成功取決於推理能力而不是記憶力。

也許最重要的是,關於未來的預測**本質上是可驗證的**。我們可以拭目以待誰是對的,從而獲得一個客觀的、帶時間戳的模型效能衡量標準。

因此,我們建議評估代理預測未來事件的能力(Ye 等,2024;Karger 等,2025)。**FutureBench** 從現實世界的預測市場和新興新聞中汲取靈感,建立基於實際未來結果的有趣預測任務。我們從平臺和即時新聞報道以及多種市場收集事件,並進行篩選,重點關注值得預測的新興事件。透過基於代理的方法,我們策劃了需要真實推理而不是簡單模式匹配的場景。設想地緣政治發展、市場動向或技術採用趨勢——這些事件中,知情分析確實很重要。

代理能否預測未來事件?

這是一個顯而易見的問題,也是這個基準之所以有趣的核心!我們認為答案不能簡單地是“是”或“否”,因為它主要取決於實際問題;總有重要的注意事項需要考慮。人類不斷利用他們權衡當前資訊的能力來預測未來事件。大多數職業變動、人際關係選擇,甚至商業策略,本質上不都是對未來結果的押注嗎?

有些預測涉及不可約減的不確定性(2027年12月17日中午會下雨嗎?),但許多則不然。當一位熟練的分析師預測公司的季度收益,或一位政策專家預測選舉結果時,他們都在利用現有資訊做出明智的決策。這正是我們要求人工智慧代理使用 FutureBench 來做的事情!任務不是讓代理算命,而是讓它們在比大多數其他基準更強的不確定性下綜合資訊和進行推理。

代理的預測質量直接反映了其搜尋相關資訊、綜合複雜資料以及推理因果關係的能力。這些正是我們希望在實際應用中衡量的能力。

DeepResearch 這樣的工具已經被用於市場分析和戰略規劃。資訊收集的質量與決策的有效性密切相關。FutureBench 受此評估過程啟發,並試圖透過客觀、可驗證的結果來計算代理的質量。

FutureBench

構建一個測試真實預測能力的基準需要源源不斷地提供有意義的問題。我們開發了兩種互補的方法來捕捉不同型別的未來事件。

1. 新聞生成問題:今天發現明天的頭條新聞

我們的第一個方法利用人工智慧從時事中挖掘預測機會。我們部署了一個基於 smolagents 的代理,用於抓取一些主要新聞網站,分析頭版文章,並生成關於其可能結果的預測問題。該代理閱讀並識別有趣的文章,並從其內容中提出具體的、有時限的問題,例如“美聯儲會在2025年7月1日前至少降息0.25%嗎?”

我們透過精心設計的提示來指導這一過程,這些提示指明瞭什麼是一個好的預測問題——有意義的、可驗證的、且在提取時間不確定的事件。

技術棧

  • 模型:DeepSeek-V3 用於推理和問題生成
  • 抓取:Firecrawl 用於可靠的內容提取
  • 搜尋:Tavily 用於在需要時提供額外上下文

該代理通常每次抓取會生成5個問題,時間跨度為一週,這意味著我們假設我們會在七天後知道問題的答案。這為我們提供了一個與現實世界事件相關的全新評估材料的自然管道。

2. Polymarket 整合:利用預測市場

我們的第二個來源來自 Polymarket。這些問題來自一個預測市場平臺,真實參與者在此平臺上對未來事件進行預測。我們目前每週大約攝取8個問題。

然而,原始資料需要篩選。我們應用了強有力的過濾來去除關於氣溫的一般問題以及一些關於股票和加密貨幣市場的問題,否則這些問題會太多,不適用於我們的基準。除此之外,Polymarket 問題對最終的“實現”時間限制較少,事件的實際結果可能要到下個月或年底才能得知。這些仍然是非常相關的問題,但結果的資料收集更為稀疏。

示例問題

以下是我們問題生成流程的輸出示例

新聞生成 Polymarket
"美聯儲會在2025年7月1日前至少降息0.25%嗎?" "6月份月通脹率會增加0.2%嗎?"
"烏克蘭和俄羅斯會在2025年7月8日前舉行和平談判嗎?" "Zohran Mamdani 在紐約市市長民主黨初選中,RCV 勝選幅度會大於13%嗎?"

未來基準:三個層次的系統評估

接下來的問題是,這種型別的基準能讓我們衡量什麼?該框架在三個不同的層面上執行,使我們能夠精確地分離出我們正在衡量的東西。

  • 第一層:框架比較 保持底層 LLM 和工具不變,同時改變框架。一個基於 LangChain 的代理與一個使用 CrewAI 構建的代理相比如何?兩者都使用 GPT-4 和相同的搜尋工具。這隔離了不同代理框架的影響。

  • 第二層:工具效能 固定 LLM 和框架,同時比較不同的實現。哪個搜尋工具(例如 Tavily、Google、Bing)能帶來比其他搜尋引擎更好的預測結果,同時保持其他所有條件不變?這揭示了哪些工具真正提供了價值。工具與沒有工具的模型相比,總體上帶來了多少價值?

  • 第三層:模型能力 保持框架和工具不變,同時測試不同的 LLM。在訪問相同工具集的情況下,DeepSeek-V3 能否像 GPT-4 一樣有效地使用它們?這衡量的是純粹的推理能力。這種系統方法使我們能夠準確瞭解代理管道中效能增益和損失發生的位置。

該基準也作為對指令遵循的有力測試。代理必須遵守特定的格式要求並生成可正確解析和執行的操作。在實踐中,這通常揭示了較小的語言模型在複雜多步推理方面的不足之處。

🚀 自己試試! 探索即時排行榜:FutureBench 互動排行榜

預測未來:代理和初步結果

我們使用 SmolAgents 作為所有問題的基準代理框架。我們還計算了基礎模型的效能。對於預測任務本身,代理可以使用一個專門的工具包:

  • 搜尋:整合 Tavily,用於查詢最新資訊和專家分析
  • 網路抓取工具:一個簡單的網路抓取工具,用於跟蹤特定來源並獲取詳細上下文。

這種有意精簡的設定迫使代理在資訊收集方面採取策略,同時仍提供進行知情預測所需的工具。

初步結果

我們使用 smolagents 作為基準來比較不同的模型(你可以在我們的 HF Space 上找到排行榜)。我們還運行了沒有網際網路訪問的標準語言模型,以估算一個普遍先驗。不出所料,我們看到代理模型比簡單的語言模型表現更好;更強的模型顯示出更穩定的預測質量。總的來說,我們還發現不同模型在處理問題時有有趣的模式。

有趣的行動模式

執行此基準揭示了不同模型如何進行資訊收集的見解。一個顯著的區別在於抓取方面。GPT-4.1 似乎更依賴搜尋結果。Claude3.74 更詳細地探索網路空間,並傾向於更頻繁地使用網路抓取;這種徹底的方法也意味著在研究過程中收集更多的輸入令牌,從而增加了成本。

模型在進行預測時展現出有趣的方法,例如,回答“六月份年度通脹率會增加2.6%或更多嗎?”這個問題:

  • DeepSeekV3 代理透過搜尋最近的 CPI 資料(發現當前通脹率為2.4-2.8%)來分析2025年6月的通脹前景,考慮關稅影響作為上漲壓力,並得出結論認為通脹將超過2.6%的門檻。

  • Claude3.7 透過全面研究(11次搜尋,而 DeepSeekV3 為3次)分析了2025年6月的通脹情況,系統地收集了2025年5月的 CPI 資料(同比2.4%),識別出月度趨勢正在減速(0.2%→0.1%),權衡了關稅壓力與美聯儲限制性政策,精確計算出所需的0.2%差距,並得出結論,鑑於最近的減速,達到2.6%的門檻不太可能,回答為“否”。

  • GPT4.1 透過針對性地搜尋市場共識和預測來分析2025年6月的通脹情況,發現2025年5月 CPI 為2.4%(低於預期2.5%),注意到月度增幅微弱(0.1%),未發現任何預測者預測6月份會達到2.6%以上,並得出結論,鑑於近期低於預期的趨勢,從2.4%躍升至2.6%的可能性不大。

有趣的是,Claude 是唯一一個嘗試直接訪問勞工統計局網站進行抓取的模型,但由於它是一個 .gov 網站,我們不允許這種操作,因此失敗了。

這些模型在其輸出中表現出不同的推理模式。 GPT 的分析側重於將共識預測作為未來事件的關鍵訊號,而不是從當前資料中推斷;而 Claude 的方法則展現出嚴謹的分析結構,採用系統性的利弊框架和定量差距分析;DeepSeekV3 的輸出則明確承認資料限制並在初始方法遇到限制時進行系統性方法調整。

這些行為差異揭示了不同模型在資訊收集方面有趣的模式。網路使用和令牌消耗的差異表明,模型在處理預測任務時有不同的策略,FutureBench 可以幫助我們衡量和理解這些策略。

侷限性與未來方向

一個挑戰是評估可能由於大量的輸入令牌而變得昂貴。例如,Claude 傾向於頻繁訪問網頁,因此會累積大量輸入令牌。在一個多輪迴圈中,這會使輸入令牌的數量迅速飆升。這增加了後續生成的成本,儘管大多數令牌最終會被快取。

FutureBench 是一個不斷發展的基準,隨著我們發現新的發現和更好的模式,我們將繼續將其納入其中。我們非常樂意聽取社群的反饋,以瞭解如何更好地獲取問題、執行哪些實驗以及哪些資料最值得分析。

參考文獻

Singh, S., Nan, Y., Wang, A., D'souza, D., Kapoor, S., Ustun, A., Koyejo, S., Deng, Y., Longpre, S., Smith, N., Ermiş, B.H., Fadaee, M., & Hooker, S. (2025). 排行榜幻覺。ArXiv, abs/2504.20879。

Karger, E., Bastani, H., Yueh-Han, C., Jacobs, Z., Halawi, D., Zhang, F., & Tetlock, P.E. (2025). ForecastBench: AI 預測能力的動態基準。ICLR。

Ye, C., Hu, Z., Deng, Y., Huang, Z., Ma, M.D., Zhu, Y., & Wang, W. (2024). MIRAI:評估事件預測的 LLM 代理。ArXiv, abs/2407.01231。

社群

註冊登入 以評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.