開放式阿拉伯語LLM排行榜介紹

釋出於 2024 年 5 月 14 日
在 GitHub 上更新

開放式阿拉伯語LLM排行榜(OALL)旨在滿足阿拉伯語處理領域對專業基準日益增長的需求。隨著自然語言處理(NLP)領域的發展,重心往往嚴重偏向英語,導致其他語言的資源嚴重不足。OALL旨在透過提供一個專門用於評估和比較阿拉伯語大型語言模型(LLM)效能的平臺來平衡這一狀況,從而促進阿拉伯語NLP的研究和開發。

鑑於OALL直接服務於全球超過3.8億阿拉伯語使用者,這一舉措意義重大。透過提升精確評估和改進阿拉伯語LLM的能力,我們希望OALL能在開發與阿拉伯語、文化和遺產的細微之處高度契合的模型和應用中發揮關鍵作用。

基準、指標與技術設定

基準資料集

開放式阿拉伯語LLM排行榜(OALL)利用廣泛多樣的強大資料集,以確保全面的模型評估。

  • AlGhafa基準:由TII LLM團隊建立,旨在評估模型在閱讀理解、情感分析和問答等一系列能力上的表現。最初包含11個原生阿拉伯語資料集,後來又擴充套件了11個數據集,這些資料集是英語NLP社群中廣泛採用的其他基準的翻譯版本。
  • ACVA和AceGPT基準:包含來自論文“AceGPT,在阿拉伯語中定位大型語言模型”的58個數據集,以及MMLU和EXAMS基準的翻譯版本,以拓寬評估範圍並涵蓋全面的語言任務。這些基準經過精心策劃,包含各種子集,精確捕捉阿拉伯語的複雜性和細微之處。

評估指標

鑑於任務的性質,包括多項選擇題和是/否問題,排行榜主要使用所有任務的歸一化對數似然準確率。選擇此指標是因為它能夠為不同型別問題的模型效能提供清晰公平的測量。

技術設定

開放式阿拉伯語LLM排行榜(OALL)的技術設定使用

  • demo-leaderboard 啟發的前端和後端,後端在TII叢集上本地執行。
  • 使用 lighteval 庫執行評估。我們已為將上述阿拉伯語基準整合到 lighteval 中做出了重大貢獻,以支援社群對阿拉伯語模型進行開箱即用評估(更多詳細資訊請參閱 GitHub 上的 PR #44PR #95)。

未來方向

我們有許多關於擴充套件開放式阿拉伯語LLM排行榜範圍的想法。計劃中包括推出不同類別的額外排行榜,例如一個用於評估檢索增強生成(RAG)場景中阿拉伯語LLM的排行榜,以及另一個作為聊天機器人競技場,根據使用者偏好計算不同阿拉伯語聊天機器人的ELO分數。

此外,我們旨在透過開發OpenDolphin基準來擴充套件我們的基準以涵蓋更全面的任務,該基準將包含約50個數據集,並將是Nagoudi等人在題為“Dolphin:一個具有挑戰性和多樣性的阿拉伯語NLG基準”的論文中完成工作的開放式複製。有興趣新增其基準或在OpenDolphin專案上合作的人員,請透過討論選項卡或此電子郵件地址與我們聯絡。

我們非常歡迎您在這些方面的貢獻!我們鼓勵社群透過提交模型、提出新基準或參與討論來做出貢獻。我們還鼓勵社群利用當前排行榜中的頂級模型,透過微調或任何其他可能幫助您的模型躋身榜首的技術來建立新模型!您將成為下一位阿拉伯語開放模型英雄!

我們希望OALL能鼓勵技術進步,並突出阿拉伯語固有的獨特語言和文化特徵。我們希望我們的技術設定以及部署大型、特定語言排行榜的經驗教訓能對其他代表性不足語言的類似倡議有所幫助。這種關注將有助於彌合傳統上由以英語為中心模型主導的資源和研究差距,透過更具多樣性和包容性的工具豐富全球NLP格局,這對於人工智慧技術日益融入全球日常生活至關重要。

提交您的模型!

模型提交流程

為確保評估過程順利進行,參與者在向開放式阿拉伯語LLM排行榜提交模型時必須遵守特定準則。

  1. 確保模型精度一致性: 提交模型的精度與原始模型一致至關重要。精度差異可能導致模型被評估,但無法在排行榜上正確顯示。

  2. 提交前檢查

    • 載入模型和分詞器: 確認您的模型和分詞器可以使用 AutoClasses 成功載入。使用以下命令:

      from transformers import AutoConfig, AutoModel, AutoTokenizer
      config = AutoConfig.from_pretrained("your model name", revision=revision)
      model = AutoModel.from_pretrained("your model name", revision=revision)
      tokenizer = AutoTokenizer.from_pretrained("your model name", revision=revision)
      

      如果遇到錯誤,請根據錯誤資訊進行解決,以確保您的模型已正確上傳。

    • 模型可見性: 確保您的模型設定為公開可見。此外,請注意,如果您的模型需要 use_remote_code=True,此功能目前不受支援,但正在開發中。

  3. 將模型權重轉換為Safetensors

    • 將模型權重轉換為safetensors,這是一種更安全、更快速的權重載入和使用格式。此轉換還使得模型引數計數能夠包含在 Extended Viewer 中。
  4. 許可證和模型卡

    • 開放許可: 驗證您的模型是否為開放許可。此排行榜旨在促進開放LLM的可訪問性,以確保其廣泛可用性。
    • 完整模型卡: 填寫詳細的模型卡資訊。這些資料將自動提取並與您的模型一起顯示在排行榜上。

模型失敗情況

如果您的模型顯示在“失敗”類別中,則表示執行已停止。請回顧上面列出的步驟,以排除故障並解決任何問題。此外,請在本地使用此指令碼測試您的模型,以在重新提交之前確認其功能。

致謝

我們感謝所有貢獻者、合作伙伴和贊助商,特別是技術創新研究院(TII)和Hugging Face對本專案的巨大支援。TII慷慨提供了必要的計算資源,符合他們支援社群驅動專案和推進阿拉伯語NLP領域開放科學的承諾,而Hugging Face則協助了他們新評估框架和排行榜模板的整合和定製。

我們還要感謝Upstage在開放式韓語LLM排行榜方面所做的工作,該排行榜為我們的努力提供了寶貴的參考和靈感來源。他們的開創性貢獻在指導我們開發全面包容的阿拉伯語LLM排行榜方面發揮了關鍵作用。

引文與參考文獻

@misc{OALL,
  author = {El Filali, Ali and Alobeidli, Hamza and Fourrier, Clémentine and Boussaha, Basma El Amel and Cojocaru, Ruxandra and Habib, Nathan and Hacid, Hakim},
  title = {Open Arabic LLM Leaderboard},
  year = {2024},
  publisher = {OALL},
  howpublished = "\url{https://huggingface.co/spaces/OALL/Open-Arabic-LLM-Leaderboard}"
}

@inproceedings{almazrouei-etal-2023-alghafa,
    title = "{A}l{G}hafa Evaluation Benchmark for {A}rabic Language Models",
    author = "Almazrouei, Ebtesam  and
      Cojocaru, Ruxandra  and
      Baldo, Michele  and
      Malartic, Quentin  and
      Alobeidli, Hamza  and
      Mazzotta, Daniele  and
      Penedo, Guilherme  and
      Campesan, Giulia  and
      Farooq, Mugariya  and
      Alhammadi, Maitha  and
      Launay, Julien  and
      Noune, Badreddine",
    editor = "Sawaf, Hassan  and
      El-Beltagy, Samhaa  and
      Zaghouani, Wajdi  and
      Magdy, Walid  and
      Abdelali, Ahmed  and
      Tomeh, Nadi  and
      Abu Farha, Ibrahim  and
      Habash, Nizar  and
      Khalifa, Salam  and
      Keleg, Amr  and
      Haddad, Hatem  and
      Zitouni, Imed  and
      Mrini, Khalil  and
      Almatham, Rawan",
    booktitle = "Proceedings of ArabicNLP 2023",
    month = dec,
    year = "2023",
    address = "Singapore (Hybrid)",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.arabicnlp-1.21",
    doi = "10.18653/v1/2023.arabicnlp-1.21",
    pages = "244--275",
    abstract = "Recent advances in the space of Arabic large language models have opened up a wealth of potential practical applications. From optimal training strategies, large scale data acquisition and continuously increasing NLP resources, the Arabic LLM landscape has improved in a very short span of time, despite being plagued by training data scarcity and limited evaluation resources compared to English. In line with contributing towards this ever-growing field, we introduce AlGhafa, a new multiple-choice evaluation benchmark for Arabic LLMs. For showcasing purposes, we train a new suite of models, including a 14 billion parameter model, the largest monolingual Arabic decoder-only model to date. We use a collection of publicly available datasets, as well as a newly introduced HandMade dataset consisting of 8 billion tokens. Finally, we explore the quantitative and qualitative toxicity of several Arabic models, comparing our models to existing public Arabic LLMs.",
}
@misc{huang2023acegpt,
      title={AceGPT, Localizing Large Language Models in Arabic}, 
      author={Huang Huang and Fei Yu and Jianqing Zhu and Xuening Sun and Hao Cheng and Dingjie Song and Zhihong Chen and Abdulmohsen Alharthi and Bang An and Ziche Liu and Zhiyi Zhang and Junying Chen and Jianquan Li and Benyou Wang and Lian Zhang and Ruoyu Sun and Xiang Wan and Haizhou Li and Jinchao Xu},
      year={2023},
      eprint={2309.12053},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}
@misc{lighteval,
  author = {Fourrier, Clémentine and Habib, Nathan and Wolf, Thomas and Tunstall, Lewis},
  title = {LightEval: A lightweight framework for LLM evaluation},
  year = {2023},
  version = {0.3.0},
  url = {https://github.com/huggingface/lighteval}
}

社群

未提供描述。

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.