推出希伯來語大模型開放排行榜!

釋出日期:2024年5月5日
在 GitHub 上更新

本專案旨在解決希伯來語自然語言處理領域亟待推進的關鍵需求。鑑於希伯來語被視為一種低資源語言,現有的大模型排行榜往往缺乏能夠準確反映其獨特特徵的基準。今天,我們很高興地推出一項開創性工作,以改變這一現狀——我們新的開放大模型排行榜,專為評估和提升希伯來語語言模型而設計。

希伯來語是一種形態豐富的語言,擁有一套複雜的詞根和模式系統。單詞由詞根構成,透過新增字首、字尾和中綴來修改含義、時態或構成複數(以及其他功能)。這種複雜性可能導致從單個詞根派生出多種有效詞形,使得為形態更簡單的語言設計的傳統分詞策略效率低下。因此,現有語言模型可能難以準確處理和理解希伯來語的細微差別,這突顯了對能夠適應這些獨特語言特性的基準的需求。

因此,希伯來語的大模型研究需要專門的基準,以具體適應該語言的細微差別和語言特性。我們的排行榜旨在透過提供針對語言特定任務的強大評估指標,並促進希伯來語生成式語言模型的開放社群驅動改進,來填補這一空白。我們相信這項倡議將成為研究人員和開發者分享、比較和改進希伯來語大模型的平臺。

排行榜指標與任務

我們開發了四個關鍵資料集,每個資料集都旨在測試語言模型對希伯來語的理解和生成能力,而不論其在其他語言中的表現如何。這些基準使用少量提示格式來評估模型,確保它們即使在有限的語境下也能正確適應和響應。

以下是排行榜中包含的每個基準的摘要。有關每個資料集、評分系統、提示構建的更全面細分,請訪問我們排行榜的 About 選項卡。

  • 希伯來語問答:此任務評估模型理解和處理希伯來語資訊的能力,側重於理解以及根據語境準確檢索答案。它透過直接問答形式檢查模型對希伯來語語法和語義的掌握程度。

    • 來源HeQ 資料集的測試子集。
  • 情感準確性:此基準測試模型檢測和解釋希伯來語文字情感的能力。它評估模型根據語言線索準確將陳述分類為積極、消極或中性的能力。

  • Winograd 圖式挑戰:該任務旨在衡量模型對希伯來語中代詞消解和語境歧義的理解。它測試模型運用邏輯推理和一般世界知識在複雜句子中正確消除代詞歧義的能力。

  • 翻譯:此任務評估模型在英語和希伯來語之間翻譯的熟練程度。它評估語言準確性、流暢性以及在語言間保留含義的能力,突出模型在雙語翻譯任務中的能力。

技術設定

該排行榜靈感來源於 開放大模型排行榜,並使用 演示排行榜模板。提交的模型會自動透過 HuggingFace 的 推理端點 進行部署,並透過 lighteval 庫管理的 API 請求進行評估。實現過程非常簡單,主要任務是設定環境;其餘程式碼執行順利。

與我們互動

我們邀請研究人員、開發者和愛好者參與這項倡議。無論您是希望提交模型進行評估,還是參與討論改進希伯來語語言技術,您的貢獻都至關重要。請訪問排行榜上的提交頁面,瞭解如何提交模型進行評估的指南,或加入排行榜 HF 空間上的討論頁面

這個新排行榜不僅僅是一個基準測試工具;我們希望它能鼓勵以色列科技界認識並解決希伯來語語言技術研究中的空白。透過提供詳細、具體的評估,我們旨在促進語言模型的發展,這些模型不僅在語言上具有多樣性,而且在文化上也是準確的,為尊重希伯來語豐富性的創新鋪平道路。加入我們,踏上這段激動人心的旅程,共同重塑語言建模的格局!

贊助

該排行榜由以色列國防部研發司 / 以色列國家希伯來語和阿拉伯語自然語言處理專案DICTA: 文字分析以色列中心Webiks合作共同贊助,這證明了對推進希伯來語語言技術的承諾。我們衷心感謝巴伊蘭大學的 Reut Tsarfaty 教授提供的科學諮詢和指導。

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.