Luth:小型語言模型的高效法語專業化
大型語言模型長期以來主要在英語語料庫上進行訓練。這種以英語為中心的偏見在實踐中表現出來:例如,CroissantLLM報告稱,所有公開可用的LLM在英語和非英語語言之間都存在巨大的效能差異。我們透過自己的基準評估證實了這一發現。即使是法語這種廣泛使用的語言,在開源自然語言處理生態系統中仍然代表性不足,高質量資料集和專用模型相對較少。這些不平衡凸顯了將強大的自然語言處理支援擴充套件到其他語言的迫切需求。認識到這些差距,近期歐洲的一些舉措(例如OpenLLM-France)已經出現,旨在構建大型法語語料庫和專用模型,這反映了對語言多樣性日益增長的承諾。
在此背景下,我們推出了兩款緊湊型、非推理型因果LLM,它們完全基於法語資料進行了指令調優:

我們還推出了Scholar資料集。Scholar 的建立旨在解決法語高質量科學資源匱乏的問題,它取材於法國高中畢業會考(Baccalauréat)和預科班(Classes Préparatoires (CPGE))的考試題目及詳細解答,涵蓋了廣泛的學科。Scholar 和從多個公共來源收集的額外精選法語資料集相結合,形成了Luth-SFT資料集,這是一個多樣化且高質量的語料庫,旨在用於法語指令遵循的後期訓練。透過將微調完全集中在法語指令和對話上,我們證實了專門針對資源較少的語言並不會必然損害整體能力。
透過將有針對性的微調與模型合併相結合,據我們所知,我們在這類模型上取得了多項法語基準測試的最新技術成果,同時保持了有競爭力的效能,甚至由於積極的跨語言遷移,在某些英語基準測試上還提高了結果。我們還在Github上公開了所有程式碼和資源,以支援可重現性和進一步研究。
動機
我們的工作證實,語言專業化可以在不損害跨語言能力的情況下實現。透過對模型進行微調並將其與基礎版本合併,我們顯著提高了目標語言的效能,同時保持甚至增強了英語能力。這一實驗證實了模型合併在目標後訓練和跨語言保留方面的潛力。
我們還旨在提供高質量的法語後期訓練資料集,以解決目前該語言開源專業資源匱乏的問題。
評估
為了評估這些模型,我們使用了 LightEval。我們特別為法語基準添加了自定義任務,這些任務是 Math-500、MMLU、IFEval 或 GPQA-Diamond 等一些知名基準的翻譯版本。我們還添加了一個補丁,用於在 LightEval 中新增推理和混合模型評估支援,目前該庫尚未處理此功能。
資料混合
我們遵循了一個行之有效且高效的策略來構建資料集。由於缺乏開放的法語後期訓練資料集,我們不得不建立自己的資料集。我們的重點是數學、常識和指令遵循。為了實現這一目標,我們從高質量的現有資料集(如 Tulu 3)開始,其中包括數學和指令遵循任務。
我們的方法如下:
- 將提示翻譯成法語。
- 使用強大的多語言模型(在本例中主要是 Qwen3-32B)為這些提示生成新的答案。
我們還從 Hugging Face Hub 上公開可用的多語言資料集中提取了樣本,包括 *smoltalk2*、*aya_dataset*、*croissantLLM* 和 *OpenHermes-fr*。我們進行了過濾,以確保資料質量並使其與我們的目標主題保持一致。
我們資料的一個顯著子集包括從法國高中會考(**Baccalauréat**)和精英大學預科班(**Classes Préparatoires aux Grandes Écoles (CPGE)**)考試中抓取並重新格式化為對話風格的題目。這個名為Scholar的資料集主要關注數學、物理、計算機科學和一般科學知識。
透過結合所有這些精選樣本,我們構建了Luth-SFT,一個高質量的法語後期訓練資料集,包含大約 **3.38 億個 token**。
訓練
我們使用 Axolotl 框架和 DeepSpeed 進行分散式訓練。訓練包括對 Luth-SFT 資料集進行 3 個 epoch 的完全微調。對於這種規模的模型,完全微調比 LoRA 取得了更好的效能,並且成本不高。我們只根據助手的輸出進行訓練,學習率為 2e-5,使用餘弦學習率排程器,批處理大小為 24(帶有補丁)。
以下是我們的兩個模型的訓練損失

合併
我們使用 MergeKit 嘗試了幾種模型合併策略,以保留模型的英語能力。主要地,我們測試了 SLERP 和線性合併,並使用了不同的合併係數。對於 Luth-0.6B-Instruct,使用 70% 微調檢查點的 SLERP 取得了最佳結果,而對於 Luth-1.7B-Instruct,使用 50% 的 SLERP 表現最佳。
令人驚訝的是,模型合併在某些法語和英語基準測試上的得分甚至優於專門微調的檢查點和原始 Qwen3 基礎模型。這些結果證實,模型合併是針對特定低資源語言進行目標後訓練的強大而有效的方法。
基準測試結果
此方法產生了 **Luth-0.6B-Instruct** 和 **Luth-1.7B-Instruct**,它們在數學、指令遵循和一般知識方面,在同等規模的法語模型中名列前茅。這兩個模型在英語基準測試中也保持了強大的效能,甚至在數學和一般知識方面超越了基礎 Qwen3 模型。評估是在溫度為 0 且非思維模式下進行的。
法語基準得分
| 基準測試 | Qwen3-0.6B | Qwen2.5-0.5B-Instruct | Luth-0.6B-Instruct |
|---|---|---|---|
| ifeval-fr | 44.45 | 22.18 | 48.24 |
| gpqa-diamond-fr | 28.93 | 23.86 | 33.50 |
| mmlu-fr | 27.16 | 35.04 | 40.23 |
| math-500-fr | 29.20 | 10.00 | 43.00 |
| arc-chall-fr | 31.31 | 28.23 | 33.88 |
| hellaswag-fr | 25.11 | 51.45 | 45.70 |
| 基準測試 | Qwen3-1.7B | SmolLM2-1.7B-Instruct | Qwen2.5-1.5B-Instruct | Luth-1.7B-Instruct |
|---|---|---|---|---|
| ifeval-fr | 54.53 | 31.24 | 32.90 | 57.67 |
| gpqa-diamond-fr | 26.90 | 21.83 | 28.93 | 38.58 |
| mmlu-fr | 28.46 | 33.73 | 46.25 | 49.66 |
| math-500-fr | 60.80 | 11.20 | 32.20 | 64.00 |
| arc-chall-fr | 33.28 | 28.57 | 32.68 | 35.16 |
| hellaswag-fr | 24.86 | 49.58 | 34.34 | 31.93 |
英語基準得分
| 基準測試 | Qwen3-0.6B | Qwen2.5-0.5B-Instruct | Luth-0.6B-Instruct |
|---|---|---|---|
| ifeval-en | 57.86 | 29.21 | 53.97 |
| gpqa-diamond-en | 29.80 | 26.77 | 28.28 |
| mmlu-en | 36.85 | 43.80 | 48.10 |
| math-500-en | 45.00 | 31.80 | 47.80 |
| arc-chall-en | 33.62 | 32.17 | 35.92 |
| hellaswag-en | 42.91 | 49.56 | 46.96 |
| 基準測試 | Qwen3-1.7B | SmolLM2-1.7B-Instruct | Qwen2.5-1.5B-Instruct | Luth-1.7B-Instruct |
|---|---|---|---|---|
| ifeval-en | 68.39 | 48.24 | 39.93 | 65.80 |
| gpqa-diamond-en | 31.82 | 24.75 | 30.30 | 31.82 |
| mmlu-en | 52.74 | 50.27 | 59.81 | 60.19 |
| math-500-en | 69.20 | 22.40 | 56.00 | 70.00 |
| arc-chall-en | 36.09 | 42.32 | 41.04 | 42.24 |
| hellaswag-en | 46.96 | 66.94 | 64.48 | 58.55 |
結論
我們的工作表明,透過結合細緻的資料集策劃和有針對性的指令調優,我們可以在像法語這樣資源較少的語言中取得顯著成果,而不會損失英語效能。透過公開我們的模型和資料集,我們旨在支援超越英語的多語言專業化方面的進一步研究。
此方法可應用於其他代表性不足的語言。使用有針對性的指令資料集、特定領域資源和模型合併有助於縮小全球許多語言的效能差距。