推出 Open Ko-LLM 排行榜:引領韓國 LLM 評估生態系統

釋出於 2024 年 2 月 20 日
在 GitHub 上更新

在大型語言模型 (LLM) 快速發展的格局中,構建“生態系統”變得前所未有的重要。這一趨勢在幾個重大發展中顯而易見,例如 Hugging Face 推動 NLP 民主化以及 Upstage 建立生成式 AI 生態系統。

受這些行業里程碑的啟發,2023 年 9 月,我們 Upstage 啟動了 Open Ko-LLM 排行榜。我們的目標是迅速開發並推出一個韓國 LLM 資料評估生態系統,與全球開放協作式 AI 開發運動保持一致。

我們對 Open Ko-LLM 排行榜的願景是培養一個充滿活力的韓國 LLM 評估生態系統,透過使研究人員能夠分享他們的結果並發現 LLM 領域的潛在人才來促進透明度。本質上,我們正在努力擴大韓國 LLM 的競爭領域。為此,我們開發了一個開放平臺,個人可以在其中註冊他們的韓國 LLM 並與其他模型進行競賽。此外,我們的目標是建立一個能夠捕捉韓語獨特特徵和文化的排行榜。為了實現這一目標,我們確保我們翻譯的基準資料集(如 Ko-MMLU)能夠反映韓語的獨特屬性。

排行榜設計選擇:為確保公平性而建立新的私有測試集

Open Ko-LLM 排行榜的特點在於其獨特的基準測試方法,特別是

  • 其採用韓語資料集,而非普遍使用的英語基準測試。
  • 不公開測試集,與大多數排行榜的開放測試集形成對比:我們決定構建全新的資料集專門用於 Open Ko-LLM,並將其保持為私有,以防止測試集汙染,並確保更公平的比較框架。

雖然我們承認開放基準可能對研究界產生更廣泛的影響和實用性,但決定維持封閉測試集環境是為了促進更受控和公平的比較分析。

評估任務

Open Ko-LLM 排行榜採用以下五種評估方法:

  • Ko-ARC (AI2 推理挑戰):Ko-ARC 是一項旨在評估科學思維和理解的多項選擇測試。它衡量解決科學問題所需的推理能力,評估複雜的推理、解決問題的能力以及對科學知識的理解。評估指標側重於準確率,反映模型從一系列選項中選擇正確答案的頻率,從而衡量其有效駕馭和應用科學原理的能力。
  • Ko-HellaSwag:Ko-HellaSwag 評估情境理解和預測能力,採用生成式或多項選擇設定。它測試在給定情境下預測最可能發生下一個情境的能力,作為模型對情境的理解和推理能力的指標。指標包括評估預測質量的準確性,具體取決於其是否採用多項選擇方式。
  • Ko-MMLU (大規模多工語言理解):Ko-MMLU 以多項選擇格式評估跨廣泛主題和領域的語言理解能力。這項廣泛的測試展示了模型在各種領域中的良好執行情況,展示了其在語言理解方面的多功能性和深度。跨任務的整體準確性以及特定領域的表現是關鍵指標,突出了不同知識領域的優勢和劣勢。
  • Ko-Truthful QA:Ko-Truthful QA 實際上是一個多項選擇基準,旨在評估模型的真實性和事實準確性。與模型自由生成回覆的生成式格式不同,在此多項選擇設定中,模型的任務是從一組選項中選擇最準確和真實的答案。這種方法強調了模型在受限選擇框架內辨別真實性和準確性的能力。Ko-Truthful QA 的主要指標側重於模型選擇的準確性,評估其與已知事實的一致性以及其在所提供的選項中識別最真實回覆的能力。
  • Ko-CommonGEN V2:Open Ko-LLM 排行榜的新基準,評估 LLM 是否能在給定條件下生成符合韓語常識的輸出,測試模型生成符合韓語語境和文化相關輸出的能力。

排行榜的實際應用:Ko-LLM 的晴雨表

Open Ko-LLM 排行榜超出了預期,已提交超過 1,000 個模型。相比之下,原始的英語 Open LLM 排行榜現在擁有超過 4,000 個模型。Ko-LLM 排行榜在啟動僅五個月後就達到了這個數字的四分之一。我們感謝這種廣泛的參與,這表明了韓國 LLM 開發的濃厚興趣。

特別值得注意的是,競爭是多樣化的,涵蓋了個人研究人員、公司和學術機構,如 KT、樂天資訊通訊、Yanolja、MegaStudy Maum AI、42Maru、電子通訊研究院 (ETRI)、KAIST 和韓國大學。其中一個傑出的提交是 KT 的 Mi:dm 7B 模型,該模型不僅在引數為 7B 或更少的模型中名列前茅,而且還向公眾開放使用,標誌著一個重要的里程碑。

我們還觀察到,總的來說,兩種型別的模型在排行榜上表現強勁:

  • 經過跨語言遷移或韓語微調的模型(如 Upstage 的 SOLAR
  • 從 LLaMa2、Yi 和 Mistral 微調的模型,強調了利用堅實的基礎模型進行微調的重要性。

管理如此龐大的排行榜並非沒有挑戰。Open Ko-LLM 排行榜旨在與 Open LLM 排行榜的理念緊密結合,尤其是在與 Hugging Face 模型生態系統整合方面。這一策略確保了排行榜的可訪問性,使得參與者更容易參與,這是其運營的關鍵因素。然而,由於基礎設施的限制,它依賴於 16 塊 A100 80GB GPU。這種設定面臨挑戰,特別是當執行超過 30 億引數的模型時,因為它們需要過多的計算資源。這導致許多提交處於長時間的待定狀態。解決這些基礎設施挑戰對於未來增強 Open Ko-LLM 排行榜至關重要。

我們的願景和下一步

我們認識到當前排行榜模型在現實世界背景下存在一些侷限性:

  • 過時的資料:像 SQUAD 和 KLEU 這樣的資料集會隨著時間推移而過時。資料持續演變和轉化,但現有排行榜卻固定在特定時間框架內,這使得它們無法很好地反映當前情況,因為每天都會生成數百個新資料點。
  • 未能反映真實世界:在 B2B 和 B2C 服務中,資料不斷從使用者或行業積累,並且不斷出現邊緣案例或異常值。真正的競爭優勢在於能夠很好地應對這些挑戰,但當前的排行榜系統缺乏衡量這種能力的方法。真實世界的資料是不斷生成、變化和演變的。
  • 競賽的意義存疑:許多模型都經過專門調整以在測試集上表現良好,這可能導致測試集內部出現另一種形式的過擬合。因此,當前的排行榜系統以排行榜為中心運作,而不是以真實世界為中心。

因此,我們計劃進一步開發排行榜,以解決這些問題,並使其成為一個被廣泛認可的值得信賴的資源。透過納入與實際用例高度相關且多樣化的基準,我們的目標是使排行榜不僅更具相關性,而且對企業真正有幫助。我們渴望彌合學術研究與實際應用之間的差距,並將透過研究界和行業從業者的反饋不斷更新和增強排行榜,以確保基準保持嚴謹、全面和最新。透過這些努力,我們希望透過提供一個能夠準確衡量和推動大型語言模型在解決實際和有影響力問題方面的進展的平臺,為該領域的發展做出貢獻。

如果您開發資料集並希望與我們合作,我們很高興與您交流,您可以聯絡我們:chanjun.park@upstage.aicontact@upstage.ai

另外,我們認為在真實的線上環境中進行評估,而非基於基準的評估,非常有意義。即使在基於基準的評估中,也需要每月更新基準,或者更具體地評估特定領域方面的基準——我們很樂意鼓勵此類舉措。

非常感謝我們的合作伙伴

Open Ko-LLM 排行榜的旅程始於與 Upstage 和韓國主要國家機構國家資訊社會機構 (NIA) 合作開發韓語排行榜的協議。這次合作標誌著啟動訊號,在一個月內,我們成功釋出了排行榜。為了驗證常識推理能力,我們與韓國大學林熙石教授的研究團隊合作,將 KoCommonGen V2 作為排行榜的額外任務。建立一個強大的基礎設施對於成功至關重要。為此,我們感謝 韓國電信 (KT) 對 GPU 資源的慷慨支援,以及 Hugging Face 的持續支援。令人鼓舞的是,Open Ko-LLM 排行榜已與自然語言處理領域的全球領導者 Hugging Face 建立了直接溝通渠道,我們正在持續討論以推動新的舉措。此外,Open Ko-LLM 排行榜擁有由可信賴的合作伙伴組成的著名聯盟:國家資訊社會機構 (NIA)、Upstage、KT 和韓國大學。這些機構的參與,特別是國家機構的加入,極大地增強了這項工作的權威性和可信度,凸顯了其作為語言模型學術和實踐探索基石的潛力。

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.