日語 LLM 開放排行榜簡介

釋出於 2024 年 11 月 20 日
在 GitHub 上更新

如今,大語言模型在英語方面的能力越來越強,但我們很難了解它們在其他國家語言中的表現,這些語言雖然被廣泛使用,但卻存在其獨特的語言挑戰。今天,我們很高興能夠填補日語在這方面的空白!

我們在此宣佈推出 日語 LLM 開放排行榜,該排行榜由超過 20 個數據集組成,涵蓋了從經典到現代的各種自然語言處理(NLP)任務,旨在深入瞭解日語 LLM 的內在機制。該排行榜由 LLM-jp(一個旨在研究和開發日語大語言模型的跨組織專案)與 Hugging Face 合作建立。

日語有其獨特的挑戰。它的形態豐富,並且由於歷史和文化上與世界各地的交流而不斷演變。其書寫系統基於三種獨立字元集的混合:簡體中文表意符號漢字(漢字)、表音字母系統平假名(平仮名 / ひらがな)和片假名(片仮名 / カタカナ),後者常用於外來詞。現代日語可以說是最難處理的語言之一,因為它混合了漢日詞、和語詞、拉丁字母(羅馬字 / ローマ字)、來自荷蘭語、葡萄牙語、法語、英語、德語的藉詞,以及阿拉伯數字和中文數字。此外,日本的數字世界還為我們帶來了使用 Unicode 編寫的表情符號 : )、使用西裡爾字母的顏文字 (っ °Д °;)っ,以及使用希臘字母的顏文字 _φ(°-°=)。當然,我們不能忘記經典的 emoji,它起源於 20 世紀 90 年代手機在日本的普及。

Japanese writing system

日語複雜的書寫系統還隱藏著更深一層的複雜性,即詞與詞之間沒有空格。與中文或泰語類似,日語在語言單位之間沒有空格,這使得在分詞過程中檢測詞邊界變得極其困難。多年來,充滿活力的日本生態系統(從知名大學實驗室、人工智慧初創公司到行業巨頭的研發中心)已將日語 NLP 的特性融入其中,開發出了強大的現代日語 LLM,但該領域一直缺乏一個集中、開放的系統來比較這些模型。

因此,我們推出了日語 LLM 開放排行榜,這是 Hugging Face 與 LLM-jp 的一次合作,旨在促進研究的透明度,並鼓勵開源模型的開發理念。我們堅信,這一舉措將成為一個平臺,讓日本及國際研究人員能夠協作、評估和改進日語 LLM。

排行榜任務簡介

日語 LLM 開放排行榜使用專門的評估套件 llm-jp-eval 對日語 LLM 進行評估,涵蓋了從經典任務(如自然語言推理、機器翻譯、摘要、問答)到更現代的任務(如程式碼生成、數學推理人類考試)等 16 項任務。任務以 4-shot 的方式啟動。

資料集由 LLM-jp 的評估團隊編制,部分由語言學家、專家和人工標註者從頭構建,部分則自動翻譯成日語並根據日語特性進行調整,其中一些任務需要長上下文推理能力。為了更好地理解排行榜,我們將詳細介紹 8 個數據集的樣本(日語原文後附淺灰色英文翻譯)。有關所有可用任務的更多詳細資訊,請參閱排行榜的“關於”選項卡以及各資料集的官方連結。

Jamp

Jamp (Controlled Japanese Temporal Inference Dataset for Evaluating Generalization Capacity of Language Models) 是用於自然語言推理(NLI)的日語時間推理基準。該資料集探索了具有各種時間推理模式的英語和日語句子對,並用蘊含、中性或矛盾等黃金標籤進行標註。

Jamp

JEMHopQA

JEMHopQA (Japanese Explainable Multi-hop Question Answering) 是一個日語多跳問答(QA)資料集,可以評估模型的內部推理能力。這項任務要求模型接收一個問題作為輸入,並生成答案和推導過程。

JEMHopQA

jcommonsenseqa

jcommonsenseqa 是 CommonsenseQA 的日文版,是一個多項選擇問答資料集。該資料集旨在評估模型的常識推理能力。

jcommonsensqa

chABSA

chABSA 是作為基於方面的情感分析 (Aspect-Based Sentiment Analysis) 資料集開發的。ChABSA 基於日本上市公司 2016 財年的財務報告,對實體、屬性和情感三元組進行標註。具體來說,根據日本金融監管機構金融廳 (Financial Service Agency, FSA) 的分類法,對日本 2,260 家上市公司中的 230 家(約佔所有公司的 10%)進行了標註。

chABSA

mbpp-ja

mbpp-ja 資料集是一個程式設計資料集:它是 Mostly Basic Python Problems (MBPP) 資料集的日文版,由 LLM-jp 利用翻譯工具 DeepL 從英語翻譯成日語。

mbpp-ja

mawps

基於資料集 MAWPS (A Math Word Problem Repository),日語 mawps 資料集是一個數學評估資料集。該版本評估模型透過逐步推理解決新任務的能力,這一過程也稱為思維鏈 (Chain-of-Thought, CoT) 推理。該資料集調整了人名、單位和地名,以適應日本的語境。數學推理的水平相對簡單:加法、減法、多步算術,以及單個或成對的方程。

mawps

JMMLU

JMMLU 是一個使用四選一問答形式的知識資料集。它由 MMLU 資料集的一部分問題翻譯成日語構成,旨在評估高中水平測試的知識。該資料集基於天文學、化學、社會學、國際法等 57 個學科,問題和答案均被翻譯成日語,同時根據日本獨特的文化背景進行了調整,例如日本公民學、日本地理和日本習語。

JMMLU

XL-Sum

XL-Sum 是一個摘要資料集,基於研究論文 “XL-Sum: Large-Scale Multilingual Abstractive Summarization for 44 Languages”,利用了 BBC 新聞文章的日文譯文。該資料集分為三部分:標題、文字(全文)和摘要。主題涵蓋全球議題、政治、科技、體育和文化。

XL-Sum

技術設定

該排行榜的靈感來源於 開放 LLM 排行榜。提交的模型使用 Hugging Face 的 推理端點 (Inference Endpoints) 自動部署,透過 llm-jp-eval 庫 (1.14.1 版) 進行評估,並利用記憶體高效的推理和服務引擎 vLLM (v0.6.3 版) 進行處理。後端計算由日本領先的研究計算平臺 mdx 提供支援。

觀察發現

根據日語 LLM 指南 Awesome Japanese LLM(提供日語、英語和法語版本),Meta 的 Llama 開源架構似乎是許多日本 AI 實驗室的首選。然而,日本開源社群也成功地利用了其他架構,例如法國 Mistral 的 Mistral 和中國阿里巴巴的 Qwen。這些架構都帶來了在日本 LLM 排行榜上取得最佳分數的模型。

在通用語言處理任務上,我們觀察到基於開源架構的日語 LLM 正在縮小與閉源 LLM 的差距。例如,由 LLM-jp 開發並由大學撥款資助的日語 LLM llm-jp-3-13b-instruct,其效能已接近閉源模型。特定領域的資料集,如 chABSA(金融)、Wikipedia Annotated Corpus(語言學標註)、程式碼生成(mbpp-ja)和摘要(XL-Sum)對大多數 LLM 來說仍然是一個挑戰。有趣的是,源自日本公司或實驗室的模型在特定的 JCommonsenseMorality 資料集上得分更高。該資料集評估模型在面對道德困境時根據日本價值觀做出選擇的能力。

未來方向

日語 LLM 開放排行榜將跟隨評估工具 llm-jp-eval 的發展,以反映日語 LLM 的不斷演進。以下是 llm-jp-eval 未來方向的一些示例,我們希望得到支援。歡迎聯絡我們提供幫助或提出建議!

  • 新資料集:更多日語評估 llm-jp-eval 的評估團隊正在致力於此部分,目前正在新增 JHumanEval (HumanEval 的日文版) 和 MMLU (衡量大規模多工語言理解)。

  • 新評估系統:思維鏈評估 我們希望比較 LLM 在使用思維鏈提示與基本提示時的效能差異,以便更深入地瞭解模型行為。

  • 新指標支援:選項外率 (Out-of-Choice rate) 對於一些已經有明確標籤列表的評估任務(如自然語言推理),我們希望增加一個補充指標,測試模型預測選項外詞元 (token) 的頻率。由於選項已在提示中提供,這將使我們能夠評估每個 LLM 遵循特定指令的能力。

致謝

日語 LLM 開放排行榜由研究聯盟 LLM-jp 建立,並榮幸地獲得位於日本東京的國立情報學研究所以及高效能計算平臺 mdx 專案的贊助。

我們謹向東京大學宮尾祐介教授韓南起在科學諮詢和指導方面的貢獻表示感謝,並感謝 Hugging FaceClémentine FourrierToshihiro Hayashi 協助我們整合和定製了他們的新評估框架和排行榜模板。

社群

註冊登入 以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.