開放金融大語言模型(Open FinLLM)排行榜釋出
尋找適用於金融用例的最佳大語言模型(LLM)
金融語言模型(LLM)日益複雜,因此需要超越通用自然語言處理(NLP)基準的評估。雖然傳統的排行榜側重於更廣泛的NLP任務,如翻譯或摘要,但它們往往無法滿足金融行業的特定需求。金融任務,如預測股票走勢、評估信用風險和從財務報告中提取資訊,提出了獨特的挑戰,需要具有專門技能的模型。這就是我們決定建立開放金融大語言模型(Open FinLLM)排行榜的原因。
排行榜提供了專門為金融行業量身定製的專業評估框架。我們希望它能填補這一關鍵空白,透過提供一個透明的框架,透過一站式解決方案評估模型在實際使用中的準備情況。排行榜旨在透過關注對金融專業人士最重要的任務(例如從財務文件中提取資訊、市場情緒分析和預測金融趨勢)來突出模型的金融技能。
- 全面的金融任務覆蓋: 排行榜僅根據與金融直接相關的任務來評估模型。這些任務包括資訊提取、情感分析、信用風險評分和股票走勢預測,這些對實際金融決策至關重要。
- 實際金融相關性: 用於基準測試的資料集代表了金融行業面臨的實際挑戰。這確保了模型實際上是根據其處理複雜金融資料的能力進行評估的,使其適用於行業應用。
- 專注的零樣本評估: 排行榜採用零樣本評估方法,在不進行任何預先微調的情況下,對模型進行未見過的金融任務測試。這種方法揭示了模型在金融語境下進行泛化和良好表現的能力,例如預測股票價格走勢或從監管檔案中提取實體,而無需專門針對這些任務進行訓練。
開放金融大語言模型(Open Financial LLM)排行榜主要特性
- 多樣化的任務類別: 排行榜涵蓋七個類別的任務:資訊提取 (IE)、文字分析 (TA)、問答 (QA)、文字生成 (TG)、風險管理 (RM)、預測 (FO) 和決策 (DM)。
- 評估指標: 模型使用多種指標進行評估,包括準確率 (Accuracy)、F1 分數 (F1 Score)、ROUGE 分數 (ROUGE Score) 和馬修斯相關係數 (Matthews Correlation Coefficient, MCC)。這些指標提供了模型效能的多維度檢視,幫助使用者識別每個模型的優缺點。
支援的任務和指標
開放金融大語言模型(Open Financial LLM Leaderboard,OFLL)評估金融語言模型在反映金融行業複雜需求的多樣化類別中的表現。每個類別都針對特定的能力,確保對模型在與金融直接相關的任務中的表現進行全面評估。
類別
OFLL 中任務類別的選擇旨在捕捉金融模型所需的全方位能力。這種方法受到金融應用的多樣性和金融語言處理任務複雜性的影響。
- 資訊提取(IE): 金融部門通常需要從非結構化文件中獲取結構化洞察,例如監管備案、合同和收益報告。資訊提取任務包括命名實體識別(NER)、關係提取和因果分類。這些任務評估模型識別關鍵金融實體、關係和事件的能力,這對於欺詐檢測或投資策略等下游應用至關重要。
- 文字分析(TA): 金融市場受到情緒、觀點以及對金融新聞和報告的解讀的驅動。文字分析任務,如情緒分析、新聞分類和鷹派-鴿派分類,有助於評估模型解釋市場情緒和文字資料的能力,從而輔助投資者情緒分析和政策解讀等任務。
- 問答(QA): 此類別涉及模型解釋複雜金融查詢的能力,特別是那些涉及數字推理或領域特定知識的查詢。問答任務,例如源自 FinQA 和 TATQA 等資料集的任務,評估模型響應詳細金融問題的能力,這在風險分析或金融諮詢服務等領域至關重要。
- 文字生成(TG): 複雜財務報告和檔案的摘要對於決策至關重要。ECTSum 和 EDTSum 等任務測試模型從冗長的金融文字中生成簡潔連貫摘要的能力,這在生成報告或分析師簡報中很有價值。
- 預測(FO): 金融領域最關鍵的應用之一是預測市場走勢的能力。此類別下的任務評估模型根據歷史資料、新聞和情緒預測股票價格走勢或市場趨勢的能力。這些任務是投資組合管理和交易策略等任務的核心。
- 風險管理(RM): 此類別側重於評估模型預測和評估金融風險的能力,例如信用評分、欺詐檢測和財務困境識別。這些任務是信用評估、風險管理和合規目的的基礎。
- 決策(DM): 在金融領域,根據多種輸入(例如,市場資料、情緒和歷史趨勢)做出明智決策至關重要。決策任務模擬複雜的金融決策,例如兼併與收購和股票交易,測試模型處理多模態輸入並提供可操作見解的能力。
指標
- F1 分數,即精確率和召回率的調和平均值,提供了均衡的評估,在資料集存在類別不平衡時尤為重要。這兩個指標都是分類任務的標準,共同提供了模型辨別金融語言中情緒的全面檢視。
- 準確率衡量正確分類例項佔所有例項的比例,提供了對整體效能的直接評估。
- 均方根誤差(RMSE)提供了預測情緒分數與實際情緒分數之間平均偏差的衡量,提供了模型預測準確性的定量洞察。
- 實體 F1 分數 (EntityF1)。此指標專門評估識別實體的精確率和召回率之間的平衡,清晰地展現了模型在識別相關金融實體方面的有效性。高 EntityF1 表示模型在檢測實體和最大程度地減少誤報方面表現出色,使其成為金融資料分析和自動化應用的重要衡量標準。
- 精確匹配準確率(EmAcc)衡量模型答案與真實情況完全匹配的問題比例,清晰地指示了模型在理解和處理金融背景下數值資訊的有效性。高 EmAcc 反映了模型提供精確可靠答案的能力,這對於依賴準確金融資料解讀的應用至關重要。
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 是一組用於透過將摘要與參考摘要進行比較來評估摘要質量的指標。它側重於生成摘要與參考摘要之間的 n-gram 重疊,提供了內容覆蓋率和忠實度的衡量。
- BERTScore 利用 BERT 模型的上下文嵌入來評估生成摘要與參考摘要之間的相似性。透過比較每個 token 嵌入的餘弦相似度,BERTScore 捕捉了語義相似性,從而可以更細緻地評估摘要質量。
- BARTScore 基於 BART(雙向和自迴歸轉換器)模型,該模型結合了自迴歸和自編碼文字生成方法的優點。它評估生成的摘要在連貫性和流暢性方面與參考摘要的對齊程度,提供了對提取過程整體質量的洞察。
- Matthews 相關係數 (MCC) 考慮了真陽性、假陽性、真陰性和假陰性,從而提供了模型在二元分類背景下的有效性洞察。這些指標共同確保了對模型在股票走勢預測這一挑戰性領域中的預測能力的全面評估。
- 夏普比率 (SR)。 夏普比率衡量模型經風險調整後的收益,提供了關於模型交易策略相對於所承擔風險水平的表現的洞察。較高的夏普比率表明每單位風險的收益更有利,使其成為衡量模型生成的交易策略有效性和效率的關鍵指標。此指標使使用者能夠衡量模型在各種市場條件下的整體盈利能力和穩健性。
單個任務
我們在此排行榜上使用了 40 個任務,涵蓋以下類別:
- 資訊提取 (IE):NER、FiNER-ORD、FinRED、SC、CD、FNXL、FSRL
- 文字分析 (TA):FPB、FiQA-SA、TSA、Headlines、FOMC、FinArg-ACC、FinArg-ARC、MultiFin、MA、MLESG
- 問答 (QA):FinQA、TATQA、Regulations、ConvFinQA
- 文字生成 (TG):ECTSum、EDTSum
- 風險管理 (RM):German、Australian、LendingClub、ccf、ccfraud、polish、taiwan、ProtoSeguro、travelinsurance
- 預測 (FO):BigData22、ACL18、CIKM18
- 決策 (DM):FinTrade
- 西班牙語:MultiFin-ES、EFP、EFPA、FinanceES、TSA-Spanish
點選此處檢視每個任務的簡要說明
**FPB(金融短語銀行情緒分類) **
描述: 對金融新聞和報告中的短語進行情感分析,將其分為積極、消極或中性類別。
指標: 準確率、F1 分數FiQA-SA(金融領域情緒分析)
描述: 對金融媒體(新聞、社交媒體)中的情緒進行分析。將情緒分為積極、消極和中性,有助於市場情緒解讀。
指標: F1 分數TSA(社交媒體情緒分析)
描述: 對金融推文進行情感分類,反映公眾對市場趨勢的看法。挑戰包括非正式語言和簡潔性。指標: F1 分數、RMSEHeadlines(新聞標題分類)
描述: 將金融新聞標題分類為情緒或事件類別。對於理解市場動向資訊至關重要。
指標: 平均 F1 分數FOMC(鷹派-鴿派分類)
描述: 將 FOMC 宣告分類為鷹派(傾向於提高利率以抑制通貨膨脹)或鴿派(傾向於降低利率以刺激經濟增長),這是貨幣政策預測的關鍵。
指標: F1 分數、準確率FinArg-ACC(論證單位分類)
描述: 識別金融文字中的關鍵論證單位(主張、證據),這對於自動化文件分析和透明度至關重要。
指標: F1 分數、準確率FinArg-ARC(論證關係分類)
描述: 對金融文件中論證單位之間的關係(支援、反對)進行分類,幫助分析師構建連貫的敘述。
指標: F1 分數、準確率MultiFin(多類別情緒分析)
描述: 將不同的金融文字分類為情緒類別(看漲、看跌、中性),對情緒驅動型交易很有價值。
指標: F1 分數、準確率MA(交易完成分類)
描述: 將兼併和收購報告分類為已完成、待定或已終止。對於投資和戰略決策至關重要。
指標: F1 分數、準確率MLESG(ESG 問題識別)
描述: 識別金融文件中的環境、社會和治理 (ESG) 問題,這對負責任的投資很重要。
指標: F1 分數、準確率NER(金融文字中的命名實體識別)
描述: 識別和分類金融文件中的實體(公司、金融工具),這對於資訊提取至關重要。
指標: 實體 F1 分數FINER-ORD(金融 NER 中的序數分類)
描述: 透過分類金融文件中實體的重要性來擴充套件 NER,有助於優先處理關鍵資訊。
指標: 實體 F1 分數FinRED(金融關係提取)
描述: 從金融文字中提取實體(所有權、收購)之間的關係,支援知識圖譜構建。
指標: F1 分數、實體 F1 分數SC(因果分類)
描述: 對金融文字中的因果關係(例如,“X 導致 Y”)進行分類,有助於市場風險評估。
指標: F1 分數、實體 F1 分數CD(因果檢測)
描述: 檢測金融文字中的因果關係,有助於風險分析和投資策略。
指標: F1 分數、實體 F1 分數FinQA(金融中的數值問答)
描述: 回答金融文件(例如資產負債表)中的數值問題,這對於自動化報告和分析至關重要。
指標: 精確匹配準確率(EmAcc)TATQA(基於表格的問答)
描述: 從財務表格(資產負債表、損益表)中提取資訊,回答需要數值推理的查詢。
指標: F1 分數、EmAccConvFinQA(金融中的多輪問答)
描述: 處理金融問答中的多輪對話,在整個對話過程中保持上下文。
指標: EmAccFNXL(數值標註)
描述: 標註金融文件中的數值(例如,收入、費用),有助於金融資料提取。
指標: F1 分數、EmAccFSRL(財務報表關係連結)
描述: 連結財務報表中的相關資訊(例如,損益表中的收入與現金流量資料)。
指標: F1 分數、EmAccEDTSUM(抽取式文件摘要)
描述: 摘要長篇金融文件,提取關鍵資訊以供決策。
指標: ROUGE、BERTScore、BARTScoreECTSUM(抽取式內容摘要)
描述: 摘要金融內容,從大量文字中提取關鍵句子或短語。
指標: ROUGE、BERTScore、BARTScoreBigData22(股票走勢預測)
描述: 根據金融新聞預測股票價格走勢,利用文字資料預測市場趨勢。
指標: 準確率、MCCACL18(基於金融新聞的股票預測)
描述: 從新聞文章中預測股票價格走勢,解讀情緒和事件進行短期預測。
指標: 準確率、MCCCIKM18(使用新聞進行金融市場預測)
描述: 從金融新聞中預測更廣泛的市場走勢(指數),綜合資訊進行市場趨勢預測。
指標: 準確率、MCCGerman(德國信用評分)
描述: 預測德國貸款申請人的信用worthiness,這對於負責任的貸款和風險管理很重要。
指標: F1 分數、MCCAustralian(澳大利亞信用評分)
描述: 預測澳大利亞市場的信用worthiness,考慮當地經濟狀況。
指標: F1 分數、MCCLendingClub(點對點貸款風險預測)
描述: 預測點對點貸款的違約風險,幫助貸方管理風險。
指標: F1 分數、MCCccf(信用卡欺詐檢測)
描述: 識別欺詐性信用卡交易,確保金融安全和欺詐預防。
指標: F1 分數、MCCccfraud(信用卡交易欺詐檢測)
描述: 檢測信用卡交易中指示欺詐的異常情況,同時處理不平衡資料集。
指標: F1 分數、MCCPolish(波蘭信用風險預測)
描述: 預測波蘭貸款申請人的信用風險,評估與當地經濟狀況相關的因素。
指標: F1 分數、MCCTaiwan(臺灣信用風險預測)
描述: 預測臺灣市場的信用風險,幫助貸方管理當地環境中的風險。
指標: F1 分數、MCC[Portoseguro(巴西索賠分析)](https://huggingface.co/datasets/TheFinAI/en-forecasting-portosegur
描述: 預測巴西保險索賠的結果,重點關注汽車保險索賠。
指標: F1 分數、MCC[Travel Insurance(索賠預測)](https://huggingface.co/datasets/TheFinA
描述: 預測旅行保險索賠的可能性,幫助保險公司管理定價和風險。
指標: F1 分數、MCCMultiFin-ES(西班牙語情緒分析)
描述: 對西班牙語金融文字中的情緒進行分類(看漲、看跌、中性)。
指標: F1 分數EFP(西班牙語金融短語分類)
描述: 對西班牙語金融短語中的情緒或意圖進行分類(積極、消極、中性)。
指標: F1 分數EFPA(西班牙語論證分類)
描述: 識別西班牙語金融文字中的主張、證據和反駁。
指標: F1 分數FinanceES(西班牙語情緒分類)
描述: 對西班牙語金融文件中的情緒進行分類,理解語言細微差別。
指標: F1 分數TSA-Spanish(西班牙語情緒分析推文)
描述: 對西班牙語推文進行情緒分析,解讀即時市場討論中的非正式語言。
指標: F1 分數FinTrade(股票交易模擬)
描述: 評估模型在股票交易模擬中的表現,分析歷史股票價格和金融新聞以最佳化交易結果。
指標: 夏普比率(SR)
點選此處檢視每個任務的詳細說明
本節將更詳細地介紹每個類別中的每個任務,解釋具體的資料集、評估指標和金融相關性。
FPB(金融短語庫情感分類)
- 任務描述。 在此任務中,我們評估語言模型對金融文字進行情感分析的能力。我們採用金融短語庫資料集1,該資料集包含從金融新聞文章和報告中提取的帶註釋短語。每個短語都標記為以下三種情感類別之一:積極、消極或中性。該資料集提供了對金融語境中表達的情感的細緻理解,使其對於市場情感分析和自動化交易策略等應用至關重要。主要目標是根據其情感準確分類每個金融短語。此任務中使用的輸入、輸出示例和提示模板詳見附錄中的表5和表8。
- 指標。 準確率、F1 分數。
FiQA-SA(FiQA 金融領域情感分析)
- 任務描述。 FiQA-SA 任務評估語言模型在金融領域進行情感分析的能力,特別側重於源自 FiQA 資料集的資料。該資料集包含各種媒體(包括新聞文章、金融報告和社交媒體帖子)的金融文字集合。該任務的主要目標是將這些文字中表達的情感分類為不同的類別,例如積極、消極和中性。這種分類對於理解市場情緒至關重要,因為它可以直接影響投資決策和策略。FiQA-SA 任務在當今快節奏的金融環境中尤其相關,其中情感的解釋可以導致及時和明智的決策。
- 指標。 F1 分數。
TSA(社交媒體情緒分析)
- 任務描述。 TSA 任務側重於評估模型對與金融市場相關的推文進行情感分析的能力。該任務利用由社交媒體帖子組成的資料集,旨在將情感分類為積極、消極或中性。社交媒體的動態特性使其成為即時情感資料的豐富來源,反映了公眾對市場趨勢、公司新聞和經濟事件的看法。TSA 資料集包含各種推文,其中包含與金融主題相關的各種情感表達,從股票表現到宏觀經濟指標。鑑於推文的簡潔和非正式性質,該任務在準確解釋情感方面提出了獨特的挑戰,因為上下文和細微之處會顯著影響含義。因此,有效的模型必須表現出對非正式語言、俚語和社交媒體平臺上常用情感指標的強大理解和分析能力。
- 指標。 F1 分數、RMSE。RMSE 提供了預測情感分數與實際情感分數之間平均偏差的衡量,提供了模型預測準確性的定量洞察。
Headlines(新聞標題分類)
- 任務描述。 Headlines 任務涉及將金融新聞標題分類為各種類別,反映不同的金融事件或情感類別。該資料集包含從知名金融新聞機構獲取的豐富標題集合,涵蓋從公司收益報告到市場預測的廣泛主題。此任務的主要目標是評估模型準確解釋和分類簡短、上下文豐富的文字片段的能力,這些片段通常會推動市場波動。鑑於標題的簡潔性,分類任務要求模型快速掌握每個標題的潛在情感和相關性,這會顯著影響投資者行為和市場情緒。
- 指標。 平均 F1 分數 (AvgF1)。此指標提供了精確率和召回率的平衡衡量,允許細緻地理解模型在分類標題方面的表現。高 AvgF1 表示模型有效地識別和分類標題中反映的情感和事件,使其成為評估其在實際金融環境中適用性的關鍵指標。
FOMC(鷹派-鴿派分類)
- 任務描述。 FOMC 任務評估模型將聯邦公開市場委員會 (FOMC) 會議記錄中的宣告分類為鷹派或鴿派的能力。鷹派宣告通常表示傾向於提高利率以抑制通貨膨脹,而鴿派宣告則表示側重於降低利率以刺激經濟增長。這種分類對於理解可能影響金融市場和投資策略的貨幣政策訊號至關重要。該資料集包含 FOMC 會議中的一系列宣告,提供了對美聯儲關於經濟狀況、通貨膨脹和就業立場的洞察。準確分類這些宣告使分析師和投資者能夠預測市場反應並相應調整其策略,使該任務在金融決策背景下高度相關。
- 指標。 F1 分數和準確率。
FinArg-ACC(金融論證單元分類)
- 任務描述。 FinArg-ACC 任務側重於對金融文件中的論證單元進行分類,旨在識別關鍵組成部分,如主要論點、支援證據和反駁。該資料集包含各種金融文字,包括研究報告、投資分析和監管備案。主要目標是評估模型將複雜金融敘事分解為不同論證單元的能力,這對於自動化金融文件分析至關重要。該任務在監管審查日益嚴格以及金融通訊透明度需求日益增長的背景下尤其相關,其中理解論證結構有助於合規和風險管理。
- 指標。 F1 分數、準確率。
FinArg-ARC(金融論證關係分類)
- 任務描述。 FinArg-ARC 任務側重於分類金融文字中不同論證單元之間的關係。這包括識別各種主張、證據和反駁如何相互關聯,例如支援、反對或中立。該資料集包含帶註釋的金融文件,這些文件突出了論證結構,使模型能夠學習金融論述的細微差別。理解這些關係對於從零散資料中構建連貫的敘述和分析至關重要,這可以幫助金融分析師、投資者和研究人員從複雜資訊中獲取有意義的見解。鑑於金融論證的複雜性質,有效的模型必須在辨別意義和上下文的細微差別方面表現出熟練程度,這對於準確分類至關重要。
- 指標。 F1 分數、準確率
MultiFin(多類別金融情感分析)
- 任務描述。 MultiFin 任務側重於將各種金融文字中表達的情感分類為多個類別,例如看漲、看跌或中性。該資料集包含各種金融文件,從報告和文章到社交媒體帖子,提供了不同來源和背景下情感的全面檢視。該任務的主要目標是評估模型準確識別和分類影響市場行為和投資者決策的情感的能力。模型必須表現出對金融討論中固有的上下文線索和不同語氣的強大理解。MultiFin 任務對於情感驅動型交易策略和市場分析中的應用特別有價值,其中精確的情感分類可以帶來更明智的投資選擇。
- 指標。 F1 分數、準確率。
MA(交易完成分類)
- 任務描述
MA 任務側重於對兼併和收購 (M&A) 報告進行分類,以確定交易是否已完成。該資料集包含從金融新聞文章、新聞稿和公司備案中獲取的各種 M&A 公告。主要目標是根據報告中提供的資訊準確識別每筆交易的狀態——分類為已完成、待定或已終止。這種分類對於投資分析師和金融機構至關重要,因為了解 M&A 交易的完成狀態可以顯著影響投資策略和市場反應。模型必須表現出對 M&A 格局的強大理解以及根據通常複雜且不斷變化的敘述準確分類交易狀態的能力。 - 指標
F1 分數,準確率。
- 任務描述
MLESG(ESG 問題識別)
- 任務描述
MLESG 任務側重於識別金融文字中的環境、社會和治理 (ESG) 問題。該資料集專門設計用於捕獲各種文字,包括公司報告、新聞文章和監管備案,這些文字討論 ESG 主題。該任務的主要目標是評估模型準確分類和歸類 ESG 相關內容的能力,這在當今的投資格局中變得越來越重要。模型的任務是檢測特定的 ESG 問題,例如氣候變化影響、社會正義倡議或公司治理實踐。模型必須對這些語境中使用的語言有深入的理解,以及辨別意義和意圖的細微差別的能力。 - 指標
F1 分數,準確率。
- 任務描述
NER(金融文字中的命名實體識別)
- 任務描述
NER 任務側重於識別和分類金融文件中的命名實體,例如公司、金融工具和個人。此任務利用包含各種金融文字的資料集,包括監管備案、收益報告和新聞文章。主要目標是準確識別與金融領域相關的實體並對其進行適當分類,這對於資訊提取和分析至關重要。有效的命名實體識別增強了金融分析過程的自動化,使利益相關者能夠快速從大量非結構化文字中獲取洞察。 - 指標
實體 F1 分數 (EntityF1)。
- 任務描述
FINER-ORD(金融 NER 中的序數分類)
- 任務描述
FINER-ORD 任務側重於透過要求模型不僅按型別而且按其在金融文字中的序數相關性對實體進行分類來擴充套件標準命名實體識別(NER)。該資料集包含一系列金融文件,其中包括報告、文章和監管備案,其中實體(例如公司、金融工具和事件)都帶有一個額外的分類層,反映了它們的重要性或優先順序。主要目標是評估模型根據周圍文字的上下文辨別和分類實體的能力。例如,模型可能會將主要實體(例如一家大型公司)識別為比同一文件中提到的次要實體(例如一家小型競爭對手)具有更高的相關性。此功能對於資訊優先順序排序和提高自動化金融分析的效率至關重要,因為區分不同級別的重要性可以顯著影響決策過程。 - 指標
實體 F1 分數 (EntityF1)。
- 任務描述
FinRED(從文字中提取金融關係)
- 任務描述
FinRED 任務側重於提取文字資料中提及的金融實體之間的關係。此任務利用包含各種金融文件的資料集,例如新聞文章、報告和監管備案。主要目標是識別和分類各種實體(例如公司、金融工具和利益相關者)之間的關係,例如所有權、收購和合作關係。準確提取這些關係對於構建全面的知識圖譜和促進深入的金融分析至關重要。挑戰在於準確解釋上下文,因為這些關係通常涉及細緻的語言和隱性聯絡,這需要對金融術語有複雜的理解。 - 指標
F1 分數、實體 F1 分數 (EntityF1)。
- 任務描述
SC(金融領域因果分類任務)
- 任務描述
SC 任務側重於評估語言模型對金融文字中的因果關係進行分類的能力。這涉及識別一個事件是否導致另一個事件,這對於理解金融市場中的動態至關重要。用於此任務的資料集包含各種金融文件,包括報告、文章和監管備案,其中因果語言通常嵌入其中。透過檢查表達因果關係短語(例如“由於”、“導致”或“導致”)的模型必須準確確定金融事件、趨勢或現象之間的因果關係。此任務與風險評估、投資策略制定和決策過程特別相關,因為理解因果關係可以顯著影響市場狀況和預測的評估。 - 指標
F1 分數、實體 F1 分數 (EntityF1)。
- 任務描述
CD(因果檢測)
- 任務描述
CD 任務側重於檢測各種金融文字中的因果關係,包括報告、新聞文章和社交媒體帖子。此任務評估模型識別一個事件影響或導致另一個事件的能力,這對於理解金融市場中的動態至關重要。該資料集包含明確突出因果連結的帶註釋示例,使模型能夠從各種上下文和因果表達中學習。檢測因果關係對於風險評估至關重要,因為它有助於分析師瞭解事件對市場行為、投資策略和決策過程的潛在影響。模型必須駕馭文字中的細微差別和微妙之處,以準確辨別因果關係。 - 指標
F1 分數、實體 F1 分數 (EntityF1)。
- 任務描述
FinQA(金融中的數值問答)
- 任務描述
FinQA 任務評估模型根據金融文件(例如資產負債表、損益表和財務報告)回答數值問題的能力。該資料集包含各種問題,這些問題不僅需要理解文字,還需要準確提取和處理數值資料。主要目標是評估模型解釋複雜金融資訊和執行必要計算以得出答案的能力。FinQA 任務與金融分析、投資決策和自動化報告中的應用特別相關,其中精確的數值響應對於利益相關者至關重要。 - 指標
精確匹配準確率(EmAcc)
- 任務描述
TATQA(金融文件中基於表格的問答)
- 任務描述
TATQA 任務側重於評估模型回答需要解釋和提取金融文件中表格資訊的問答的能力。該資料集專門設計用於包含各種金融表格,例如資產負債表、損益表和現金流量表,每個表格都包含對金融分析至關重要的結構化資料。此任務的主要目標是評估模型在這些表格中導航以提供對通常需要數值推理或領域特定知識的問題的準確和相關答案的能力。模型必須表現出不僅能夠找到正確資料,而且能夠理解金融分析上下文中不同資料點之間關係的能力。 - 指標
F1 分數,精確匹配準確率 (EmAcc)。
- 任務描述
ConvFinQA(金融中的多輪問答)
- 任務描述
ConvFinQA 任務側重於評估模型在金融領域處理多輪問答的能力。此任務模擬金融分析師進行對話的真實場景,他們提出一系列相關問題,這些問題建立在之前的答案之上。該資料集包含反映金融資料、市場趨勢和經濟指標常見查詢的對話,要求模型在整個對話過程中保持上下文和連貫性。主要目標是評估模型解釋和準確響應多輪查詢的能力,確保它能夠隨著對話的進展提供相關和精確的資訊。此任務在金融諮詢環境中特別相關,分析師必須從複雜資料集中提取洞察,同時與客戶或利益相關者互動。 - 指標
精確匹配準確率(EmAcc)。
- 任務描述
FNXL(金融文字中的數值標註)
- 任務描述
FNXL 任務側重於金融文件中數值的識別和分類。這涉及根據其型別(例如,收入、利潤、費用)及其在文字上下文中的相關性來標註數字。用於此任務的資料集包含各種金融報告、報表和分析,呈現了對理解財務業績至關重要的各種數值表示式。準確的數值標註對於自動化金融分析和確保關鍵資料點易於訪問以供決策至關重要。模型必須表現出強大的解析上下文和語義能力,以準確分類數值資訊,從而提高金融資料處理的效率。 - 指標
F1 分數,精確匹配準確率 (EmAcc)。
- 任務描述
FSRL(財務報表關係連結)
- 任務描述
FSRL 任務側重於連結不同財務報表中的相關資訊,例如將損益表中的收入資料與相應的現金流量資料進行匹配。此任務對於全面的財務分析至關重要,使模型能夠綜合來自多個來源的資料,以提供對公司財務狀況的連貫理解。用於此任務的資料集包含來自上市公司的各種財務報表,具有不同財務指標之間複雜的相互關係。準確連結此資訊對於依賴財務業績整體檢視的金融分析師和投資者至關重要。該任務要求模型駕馭金融術語的複雜性,並理解各種金融要素之間的關係,確保它們能夠有效地連線相關資料點。 - 指標
F1 分數,精確匹配準確率 (EmAcc)。
- 任務描述
EDTSUM(金融中的抽取式文件摘要)
- 任務描述
EDTSUM 任務側重於透過提取最相關的句子來總結冗長的金融文件,以建立簡潔連貫的摘要。此任務在金融領域至關重要,專業人士經常處理大量的報告、研究論文和監管備案。從大量文字中提取關鍵資訊的能力對於高效的決策和資訊傳播至關重要。EDTSUM 資料集包含各種金融文件,每個文件都配有專家生成的摘要,突出關鍵見解和資料點。模型根據其識別和選擇準確反映原始文件中主要主題和論點的句子的能力進行評估。 - 指標
ROUGE、BERTScore 和 BARTScore。
- 任務描述
ECTSUM(抽取式內容摘要)
- 任務描述
ECTSUM 任務側重於金融領域中的抽取式內容摘要,其目標是從大量金融文件中生成簡潔的摘要。此任務利用包含各種金融文字的資料集,例如報告、文章和監管備案,每個文字都包含與利益相關者相關的關鍵資訊。目標是評估模型識別和提取最顯著的句子或短語的能力,這些句子或短語概括了原始文字的要點。ECTSUM 任務挑戰模型展示其對上下文、相關性和連貫性的理解,確保提取的摘要準確地代表主要思想,同時保持可讀性和清晰度。 - 指標
ROUGE、BERTScore 和 BARTScore。
- 任務描述
BigData22(股票走勢預測)
- 任務描述
BigData22 任務側重於根據金融新聞和報告預測股票價格走勢。該資料集旨在捕捉市場情緒與股票表現之間錯綜複雜的關係,利用新聞文章、社交媒體帖子和市場資料的綜合集合。此任務的主要目標是評估模型在限定時間範圍內準確預測特定股票價格是上漲還是下跌的能力。模型必須有效地分析文字資料並辨別與市場走勢相關的模式。 - 指標
準確率,馬修斯相關係數(MCC)。
- 任務描述
ACL18(基於金融新聞的股票預測)
- 任務描述
ACL18 任務側重於根據金融新聞文章和標題預測股票走勢。此任務利用包含各種新聞報道的資料集,旨在評估模型分析文字內容和預測短期內股票價格是上漲還是下跌的能力。該資料集涵蓋一系列金融新聞主題,從公司公告到經濟指標,反映了新聞情緒與市場反應之間複雜的相互作用。模型必須有效地解釋語言和情緒中的細微差別,這些細微差別可能影響股票表現,確保預測與實際市場走勢保持一致。 - 指標
準確率,馬修斯相關係數(MCC)。
- 任務描述
CIKM18(使用新聞進行金融市場預測)
- 任務描述
CIKM18 任務側重於根據金融新聞文章預測更廣泛的市場走勢(例如股票指數)。此任務利用包含各種與市場事件相關的新聞報道的資料集,評估模型綜合來自多個來源的資訊並對未來市場趨勢進行知情預測的能力。該資料集包含涵蓋重要金融事件、經濟指標和公司新聞的文章,反映了新聞情緒與市場行為之間複雜的相互作用。此任務的目標是評估模型分析金融新聞內容並利用該分析預測市場走勢的能力。 - 指標
準確率,馬修斯相關係數(MCC)。
- 任務描述
German(德國市場信用評分)
- 任務描述
German 任務側重於評估模型預測德國市場貸款申請人信用worthiness的能力。此任務利用包含各種財務指標、人口統計資訊和歷史信用資料的資料集,旨在將申請人分類為信用良好或信用不良。該資料集反映了德國獨特的經濟和監管條件,提供了對影響該特定市場信用決策的因素的全面檢視。鑑於準確信用評分對於金融機構的重要性,此任務對於最大程度地降低風險和確保負責任的貸款實踐至關重要。模型必須有效地分析多個變數以做出明智的預測,從而促進貸款審批和風險管理中的更好決策。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
Australian(澳大利亞市場信用評分)
- 任務描述
Australian 任務側重於預測澳大利亞金融環境中貸款申請人的信用worthiness。該資料集包含從各種來源(例如財務歷史、收入水平和人口統計資訊)派生的一系列全面特徵。此任務的主要目標是將申請人分類為信用良好或信用不良,使金融機構能夠做出明智的貸款決策。鑑於澳大利亞獨特的經濟條件和監管環境,此任務對於理解影響該市場信用評分的特定因素尤其相關。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
LendingClub(點對點貸款風險預測)
- 任務描述
LendingClub 任務側重於預測透過 LendingClub 平臺(一家主要的點對點貸款服務)發放的貸款的違約風險。此任務利用包含貸款申請人詳細資訊的資料集,例如信用評分、收入水平、就業歷史和其他財務指標。主要目標是評估貸款違約的可能性,使貸方能夠做出有關貸款審批和風險管理的明智決策。在此任務中評估的模型必須有效地分析各種特徵,捕捉資料中複雜的關係以提供可靠的風險評估。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
ccf(信用卡欺詐檢測)
- 任務描述
ccf 任務側重於在一個大型信用卡操作資料集中識別欺詐性交易。該資料集包含各種交易特徵,包括交易金額、時間、地點和商家資訊,提供了對消費行為的全面檢視。該任務的主要目標是將交易分類為合法或欺詐性,從而使金融機構能夠有效地檢測和預防欺詐活動。模型必須應對類別不平衡帶來的挑戰,因為欺詐性交易通常只佔總資料集的一小部分。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
ccfraud(信用卡交易欺詐檢測)
- 任務描述
ccfraud 任務側重於識別信用卡操作資料集中欺詐性交易。該資料集包含大量交易記錄,每條記錄都被標記為合法或欺詐。主要目標是評估模型準確區分正常交易和顯示可疑行為(指示欺詐)的交易的能力。ccfraud 任務提出了獨特的挑戰,包括需要處理不平衡資料,因為欺詐性交易通常只佔總資料集的一小部分。模型必須表現出檢測欺詐活動的細微模式和異常情況的能力,同時最大程度地減少誤報以避免給合法客戶帶來不便。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
Polish(波蘭市場信用風險預測)
- 任務描述
Polish 任務側重於預測波蘭金融市場貸款申請人的信用風險。此任務利用包含申請人人口統計和財務資訊的綜合資料集,旨在評估貸款違約的可能性。此預測對於金融機構做出明智的貸款決策和有效管理風險至關重要。模型必須根據影響信用worthiness的當地因素(例如收入水平、就業狀況和信用歷史)進行調整。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
Taiwan(臺灣市場信用風險預測)
- 任務描述
臺灣任務側重於預測臺灣市場貸款申請人的信用風險。該任務利用包含借款人詳細財務和個人資訊的資料集,旨在根據各種因素(包括信用歷史、收入和人口統計資訊)評估違約可能性。模型分析資料中複雜模式並提供可靠預測的能力在快速變化的金融環境中至關重要。鑑於臺灣獨特的經濟條件和監管環境,該任務還強調了當地背景在風險評估中的重要性,要求模型有效地適應特定的市場特徵和趨勢。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
Portoseguro(巴西市場索賠分析)
- 任務描述
Portoseguro 任務側重於分析巴西市場中的保險索賠,特別是汽車保險。該任務利用包含各種索賠詳細資訊的資料集,例如事件性質、保單持有人詳細資訊和索賠結果。主要目標是評估模型根據這些因素預測索賠被批准或拒絕的可能性。透過準確分類索賠,模型可以幫助保險公司簡化決策流程,增強風險管理策略,並減少欺詐活動。模型必須考慮區域細微差別和評估索賠時使用的具體標準,確保預測與當地法規和市場慣例保持一致。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
旅行保險(旅行保險索賠預測)
- 任務描述
旅行保險任務側重於根據各種因素和資料點預測旅行保險索賠發生的可能性。該資料集包含與旅行保險保單、已提出索賠以及相關變數(如旅行型別、持續時間、目的地和被保險人的身份資訊)相關的歷史資料。該任務的主要目標是評估模型準確評估索賠提交風險的能力,這對於保險公司確定保單定價和風險管理策略至關重要。透過分析資料中的模式和趨勢,模型可以深入瞭解哪些因素導致索賠的可能性更高,從而使保險公司能夠就承保和保費設定做出明智的決策。 - 指標
F1 分數,馬修斯相關係數(MCC)。
- 任務描述
MultiFin-ES(西班牙語多類別金融情感分析)
- 任務描述
MultiFin-ES 任務側重於分析 - 西班牙語金融文字中的情感,將情感分類為多個類別,例如看漲、看跌和中性。該資料集包含各種金融文件,包括新聞文章、報告和社交媒體帖子,反映了金融領域的各個方面。主要目標是評估模型根據上下文線索、語言細微差別和西班牙金融論述中普遍存在的文化參考來準確分類情感的能力。模型必須表現出熟練處理西班牙語的細微之處,包括習語和區域變體,以實現準確分類。
- 指標
F1 分數。
- 任務描述
EFP(西班牙語金融短語分類)
- 任務描述
EFP 任務側重於西班牙語金融短語的分類,利用為此目的專門設計的資料集。該資料集包含從西班牙語金融文字(包括新聞文章、報告和社交媒體帖子)中提取的帶註釋的短語集合。主要目標是根據情感或意圖對這些短語進行分類,將它們歸類為相關分類,例如積極、消極或中性。鑑於西班牙語市場在全球金融中日益增長的重要性,準確解釋和分析西班牙語金融通訊中的情感對於投資者和分析師至關重要。 - 指標
F1 分數。
- 任務描述
EFPA(西班牙語金融論證分類)
- 任務描述
EFPA 任務側重於分類西班牙語金融文件中的論證,旨在識別關鍵組成部分,如主張、證據和反駁。該資料集包含一系列金融文字,包括報告、分析和監管文件,為理解金融領域中的論證結構提供了豐富的資源。主要目標是評估模型準確分類不同論證單元的能力,這對於自動化複雜金融敘事的分析至關重要。透過有效分類論證,利益相關者可以深入瞭解金融決策背後的原因以及影響市場的各種因素之間的相互作用。此任務提出了獨特的挑戰,要求模型展示對語言和領域特定上下文的深入理解。 - 指標
F1 分數。
- 任務描述
FinanceES(西班牙語金融情感分類)
- 任務描述
FinanceES 任務側重於對各種西班牙語金融文件中的情感進行分類。該資料集包括新聞文章、報告和社交媒體帖子,反映了各種金融主題和事件。主要目標是評估模型準確識別積極、消極或中性情感的能力,從而提供對西班牙語地區市場看法深入的見解。鑑於西班牙語固有的文化和語言細微差別,有效的情感分類要求模型熟練地駕馭習語、俚語和特定上下文的術語。此任務尤其相關,因為金融情感分析在全球範圍內擴充套件,需要強大的模型才能在不同語言和文化背景下有效執行。 - 指標
F1 分數。
- 任務描述
TSA-Spanish(西班牙語情感分析)
- 任務描述
TSA-Spanish 任務側重於評估模型對西班牙語推文和與金融市場相關的短文字進行情感分析的能力。該任務利用由各種社交媒體帖子組成的資料集,旨在將情感分類為積極、消極或中性。社交媒體的動態特性提供了豐富的即時情感資料來源,反映了公眾對各種金融主題的看法,包括股票表現、公司公告和經濟發展。該任務在準確解釋情感方面提出了獨特的挑戰,因為上下文、俚語和區域表達會顯著影響含義。模型必須對西班牙語的細微之處有深入的理解,包括在不同西班牙語社群中常用的口語和各種情感指標。 - 指標
F1 分數。
- 任務描述
FinTrade(股票交易資料集)
- 任務描述
FinTrade 任務評估模型在股票交易模擬中的能力,使用專門開發的資料集,該資料集整合了一年內的歷史股票價格、金融新聞和情緒資料。該資料集旨在反映真實世界的交易場景,提供對各種因素如何影響股票表現的全面檢視。此任務的主要目標是評估模型根據定量和定性資料(如市場趨勢和情緒分析)組合做出明智交易決策的能力。透過模擬交易活動,模型的任務是生成可操作的見解和策略,以最大化盈利能力同時管理風險。資料的多樣性,包括價格走勢、新聞事件和情緒波動,要求模型有效地整合和分析多個數據流以最佳化交易結果。 - 指標
夏普比率(SR)。
- 任務描述
如何使用開放金融大語言模型(Open Financial LLM)排行榜
當您首次訪問 OFLL 平臺時,您會看到主頁,其中提供了排行榜概述,包括平臺用途介紹以及提交模型進行評估的連結。
在主頁頂部,您會看到不同的選項卡:
- 大語言模型基準: 評估模型的核心頁面。
- 在此提交: 提交您自己的模型進行自動評估的地方。
- 關於: 有關基準、評估過程和所用資料集的更多詳細資訊。
選擇要顯示的任務
為了根據您的特定需求定製排行榜,您可以在“選擇要顯示的列”部分選擇您想關注的金融任務。這些任務分為幾個類別,例如:
- 資訊提取 (IE)
- 文字分析 (TA)
- 問答 (QA)
- 文字生成 (TG)
- 風險管理 (RM)
- 預測 (FO)
- 決策 (DM)
只需勾選您感興趣的任務旁邊的方框即可。選定的任務將作為列出現在評估表中。如果您希望刪除所有選擇,請單擊“取消全選”按鈕以重置任務類別。
選擇要顯示的模型
為了進一步細化排行榜中顯示的模型,您可以使用介面右側的“模型型別”和“精度”過濾器,並根據其
- 型別: 預訓練、微調、指令微調或強化學習 (RL) 微調。
- 精度: float16、bfloat16 或 float32。
- 模型大小: 範圍從約 15 億到 700 億以上引數。
在任務表中檢視結果
一旦您選擇了任務,結果將顯示在任務表中(見圖)。此表提供了每個模型在您選擇的任務中的詳細指標。每個模型的表現顯示在標有平均 IE、平均 TA、平均 QA 等的列下,對應於您選擇的任務。
提交模型進行評估
如果您有新模型希望在排行榜上進行評估,提交部分允許您上傳模型檔案。您需要提供:
- 模型名稱
- 修訂提交
- 模型型別
- 精度
- 權重型別
上傳模型後,排行榜將自動開始評估其在所選任務中的表現,並提供即時反饋。
當前最佳模型和令人驚喜的結果
在開放金融大語言模型排行榜的整個評估過程中,有幾個模型在各種金融任務中表現出卓越的能力。
截至最新評估:
- 最佳模型:GPT-4 和 Llama 3.1 在許多工中持續優於其他模型,在解釋金融情感方面表現出高準確性和魯棒性。
- 令人驚喜的結果:專注於股票走勢預測的預測 (FO) 任務顯示,小型模型,如 Llama-3.1-7b、internlm-7b,在準確率和 MCC 方面通常優於大型模型,例如 Llama-3.1-70b。這表明模型大小不一定與金融預測中的更好效能相關,尤其是在即時市場資料和細緻的情感分析至關重要的任務中。這些結果突出表明,根據任務特定效能評估模型的重要性,而不是僅僅依賴模型大小或通用基準。
致謝
我們衷心感謝包括 Linux 基金會在內的贊助商對開放金融大語言模型排行榜的慷慨支援。他們的貢獻幫助我們建立了這個平臺,為金融 AI 社群服務,並推動了金融語言模型的評估。
我們也邀請社群透過提交模型、資料集或評估任務來參與這個持續進行的專案。您的參與對於確保排行榜保持為衡量金融大型語言模型的全面且不斷發展的工具至關重要。我們可以共同推動創新,幫助開發更適合實際金融應用的模型。