🥐CroissantLLM:一個真正雙語的法英語言模型

社群文章 釋出於2024年2月5日

我們很高興地推出 CroissantLLM,一個雖小但功能強大的13億引數語言模型,它在3萬億個token上進行訓練,並且是完全開放和真正雙語的!我們的目標是為研究和工業界帶來一個高效能、完全開源的雙語模型,該模型可以在消費級本地硬體上快速執行。我們的方法植根於透明度,除了模型和各種檢查點,我們還發布了新的高質量法文資料集,這些資料集來源於法律、行政、文化、商業、科學和翻譯資料,以及FrenchBench,一個用於評估LLM法文效能的新基準!

image/png

資料

大多數最新模型主要在英文語料庫上進行訓練,導致其他語言的效能下降,併產生以英文為中心的文化偏見。透過 CroissantLLM,我們旨在訓練一個模型,其中英文不再是主導語言,並努力實現英文和法文資料1:1的比例!

挑戰之一是收集足夠數量的高質量法文資料。我們從多個不同來源收集、過濾和清理資料,以涵蓋各個領域(法律、行政、文化、科學等),或涵蓋不同的文字模式(語音轉錄、電影字幕、百科全書、論壇、網頁等)……所有收集到的資料都在技術報告中明確列出,均屬於開放許可,並與專案的其餘部分一起共享。

image/png

我們總共收集了超過3030億個單語法文資料(1.3 TB),以及360億個高質量法英翻譯資料,並將其與英文和程式碼資料進行整合!我們構建最終的3萬億個token資料集,經過上取樣後,確保法文和英文資料量相等。

作為參考,在3萬億個token上訓練一個LLM是巨大的!這比Llama2模型訓練期間看到的token數量還要大,幾乎是Bloom模型訓練量的10倍,這使得CroissantLLM成為迄今為止在最多法文資料上訓練過的模型!

模型

CroissantLLM 是一個13億引數模型,採用 Llama 模型架構。選擇這種模型大小的原因在於認識到,模型廣泛採用的最大瓶頸是模型在消費級硬體上執行速度慢。事實上,從 HuggingFace 的下載量來看,下載量最大的模型並不是效能最好的(Llama2-70B,Mixtral 8x7B),而是那些更小、更易於部署和微調的模型(Llama2-7B,Mistral 7B)。

憑藉其1.3B的模型大小,CroissantLLM能夠在低端GPU伺服器上極快地執行,實現高吞吐量和低延遲,甚至可以在CPU或移動裝置上以不錯的速度執行!

當然,權衡在於 CroissantLLM 不會像大型模型那樣在推理、數學、編碼方面展現出相同的通用能力,但它將非常適用於更具體的工業應用、翻譯,甚至是聊天功能,在這些場景中,並不總是需要大型模型!

image/gif

基準

為了評估模型在英語之外的效能,團隊引入了 FrenchBench,這是一個新穎的基準,包含各種分類和生成任務,以評估 LLM 在法語中的效能。FrenchBench Gen 包括標題生成、摘要、問題生成和問答等任務,這些任務依賴於高質量的法語問答資料集 FQuaD。FrenchBench 的多項選擇部分側重於推理、事實知識和語言能力。

image/pngFrench-Bench Gen 結果(5-shot)

image/pngFrench-Bench 多項選擇題結果(5-shot)

CroissantLLM 是法語領域中同等大小效能最佳的模型,在大多數任務上,其效能甚至優於大三倍的模型(Bloom 3B)。

我們還在英文基準上評估了模型,其效能與同等大小的最佳模型持平或超越!

image/png英文基準測試(5-shot)

應用

目前,我們只討論了基礎模型!然而,現在已經明白基礎模型只是大多數現代LLM系統的基礎,為了提取最佳效能,進行第二階段訓練,即監督微調,非常重要!我們對 CroissantLLM 進行了聊天資料微調,包括一些 ChatGPT 互動,並評估了 CroissantLLMChat 在各種法語和英語任務(如 MT-Bench、翻譯、法語冷知識)上的能力。

image/pngMT-Bench 英語和法語表現

MT-Bench 旨在評估 LLM 在八個領域的能力。CroissantLLMChat 在法語理解任務(如寫作和角色扮演)上表現出色,超越了相同大小的模型。它還在 STEM 和人文學科方面展現出良好的常識。

這項工作試圖解決的一個問題是,雙語資料訓練是否不僅能提升模型在另一種語言上的理解和寫作能力,還能為模型賦予新的知識和不同的文化偏見。我們透過一項法國冷知識任務來評估法國文化知識,該任務包括用英語提問與法國相關的話題。法國冷知識任務的結果表明,在非常大的語料庫上進行預訓練能夠顯著提高知識能力。

image/png法國冷知識結果

以1:1的比例訓練法語和英語資料,以及平行資料的好處,也可以在翻譯任務中體現出來。事實上,CroissantLLM在少樣本設定中優於Llama和Mistral 7B等大型模型,並且與同等大小的最先進專業翻譯模型NLLB 1.3B不相上下,同時保持其通用聊天能力。

image/png翻譯結果

透明度

最先進的模型,無論是專有模型還是開源權重模型,通常都由資金雄厚的公司設計和訓練,這些公司旨在透過保密其訓練資料組合和策略來保持其護城河,從而阻礙了該領域其他研究人員充分研究和理解這些模型的能力。

此外,關於誰擁有用於訓練這些語言模型的資料的爭議仍在持續,法律影響也日益突出。最近的政治討論,例如歐盟人工智慧法案和美國參議院聽證會,都強調了在人工智慧開發中提高透明度的日益增長的需求,以確保法律合規性並建立使用者信任。

CroissantLLM 專案從一開始就將透明度納入考量。我們透過釋出資料、模型、訓練過程以及用於整理資料和訓練模型的所有程式碼,驗證了 FMTI 框架上81%的透明度標準,遠遠超過了大多數開放倡議的得分。

image/png

科學

CroissantLLM及其相關成果不僅是一個高效能模型,還旨在支援多語言語言模型的進一步研究,理解預訓練資料對內部知識的影響,以及模型在遠超Chinchilla最佳閾值下訓練的動態。這將促成關於模型記憶和雙語語言模型分離能力的更多出版物。

連結

模型、資料集、訓練程式碼、評估基準和資料都是完全開源的。

CroissantLLM 也能在低端移動裝置上執行,我們很快就會發布 APK! image/gif

致謝

這項工作是學術界和工業界合作伙伴的合作成果。在學術方面,核心作者隸屬於 CentraleSupélec(巴黎薩克雷大學)和里斯本高等技術學院,其他貢獻者與索邦大學和倫敦帝國理工學院相關。在工業方面,作者分別獲得了 Illuin Technology(巴黎)、Unbabel(里斯本)、Equall(紐約、里斯本、巴黎)和 Diabolocom(巴黎)的資助。訓練計算主要透過 GENCI IDRIS 運營的 Jean Zay 超級計算機獲得,計算資助號為 2023-AD011014668R1。

社群

註冊登入 發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.