歡迎來到 Falcon 3 開源模型系列!

釋出於 2024 年 12 月 17 日
在 GitHub 上更新

我們隆重推出 Falcon3,這是一系列由阿布扎比技術創新研究所 (TII) 開發的、引數量低於 100 億的僅解碼器(decoder-only)大語言模型。本次釋出突破了效能和訓練效率的界限,體現了我們對推進開放、易用的大型基礎模型的一貫承諾。

Falcon3 是先前版本的自然演進,重點在於擴充套件模型在科學、數學和程式碼方面的能力。

本次迭代包括五個基礎模型:

  1. Falcon3-1B-Base
  2. Falcon3-3B-Base
  3. Falcon3-Mamba-7B-Base
  4. Falcon3-7B-Base
  5. Falcon3-10B-Base

在開發這些模型時,我們融入了多項關鍵創新,旨在提升模型效能的同時降低訓練成本:

  • 針對 Transformer 模型的單次預訓練: 我們利用 1024 塊 H100 GPU 晶片,對 7B 模型進行了一次大規模的預訓練。訓練資料量達到 14 萬億 token,涵蓋了網頁、程式碼、STEM、精選高質量及多語言資料。
  • 透過深度擴充套件提升推理能力: 基於近期關於模型深度影響的研究,我們透過複製冗餘層並將 7B 模型擴充套件至 10B 引數,然後繼續使用 2 萬億 token 的高質量資料進行預訓練。由此產生的 Falcon3-10B-Base 在引數量低於 13B 的模型中,實現了最先進的零樣本(zero-shot)和少樣本(few-shot)效能。
  • 透過知識蒸餾最佳化小型模型: 為了提供緊湊高效的替代方案,我們利用剪枝和知識蒸餾技術,僅使用不到 100GT 的精選高質量資料,開發了 Falcon3-1B-Base 和 Falcon3-3B-Base,從而重新定義了預訓練的效率。
  • 純 SSM 模型: 我們透過在額外 1.5 萬億 token 的高質量資料上進行訓練,進一步增強了 Falcon Mamba 7B,最終得到 Falcon3-Mamba-7B-Base。值得注意的是,更新後的模型在推理和數學能力上有了顯著提升。
  • 其他變體: Falcon3 系列中的所有模型都提供多種變體,如 Instruct、GGUF、GPTQ-Int4、GPTQ-Int8、AWQ 和 1.58-bit,為廣泛的應用場景提供了靈活性。

主要亮點

Falcon3 在常見基準測試中展現了卓越的效能,挑戰了中小型大語言模型的極限。

  • Falcon3-1B-Base 的效能超越了 SmolLM2-1.7B,並與 gemma-2-2b 相當。
  • Falcon3-3B-Base 的效能優於 Llama-3.1-8B 和 Minitron-4B-Base 等更大規模的模型,凸顯了知識蒸餾預訓練的優勢。
  • Falcon3-7B-Base 在 9B 規模以下模型中表現出頂級效能,與 Qwen2.5-7B 相當。
  • Falcon3-10B-Base 作為最先進的模型,在 13B 以下類別中取得了優異成績。
  • 所有基於 Transformer 的 Falcon3 模型都與 Llama 架構相容,從而能夠更好地融入 AI 生態系統。
  • Falcon3-Mamba-7B 仍然是效能領先的狀態空間語言模型 (SSLM),在 7B 規模上,其效能與領先的基於 Transformer 的 LLM 相當甚至更優,並且支援更長的 32K 上下文長度。由於其架構與原始的 Falcon Mamba 7B 相同,使用者無需額外操作即可無縫整合 Falcon3-Mamba-7B。
  • 我們基礎模型系列的指令微調版本在各種基準測試中也表現出色,其中 Falcon3-7B-Instruct 和 Falcon3-10B-Instruct 在公開排行榜上超越了 13B 規模以下的所有指令微調模型。

增強的能力

我們使用內部評估流程(基於 lm-evaluation-harness)對模型進行了評估,並報告原始分數。我們的評估突出了 Falcon3 模型系列表現卓越的關鍵領域,反映了其在科學領域、推理能力和通用知識能力方面的效能提升。

  • 數學能力: Falcon3-10B-Base 在 MATH-Lvl5 上的得分為 22.9,在 GSM8K 上的得分為 83.0,展示了在複雜數學任務中增強的推理能力。
  • 編碼能力: Falcon3-10B-Base 在 MBPP 上的得分為 73.8,而 Falcon3-10B-Instruct 在 Multipl-E 上的得分為 45.8,反映了它們在程式設計相關任務中的泛化能力。
  • 擴充套件的上下文長度:Falcon3 系列中的模型支援高達 32k 的 token(1B 模型除外,支援高達 8k 的上下文),並在功能上有所改進,例如 Falcon3-10B-Instruct 在 BFCL 上的得分為 86.3。
  • 改進的推理能力: Falcon3-7B-Base 和 Falcon3-10B-Base 在 BBH 上的得分分別為 51.0 和 59.7,反映了推理能力的增強,其中 10B 模型的推理效能優於 7B 模型。
  • 科學知識擴充套件: 在 MMLU 基準測試中的表現證明了其在專業知識方面的進步,Falcon3-7B-Base 在 MMLU/MMLU-PRO 上的得分分別為 67.4/39.2,Falcon3-10B-Base 的得分則為 73.1/42.5。

模型規格與基準測試結果

下表總結了 Falcon3 模型系列的詳細規格。Falcon3-7B-Base 的架構特點是頭維度(head dimension)為 256,在使用 FlashAttention-3 時可實現高吞吐量,因為後者針對該維度進行了最佳化。這些僅解碼器模型中,基於 Transformer 的模型層數從 18 到 40 層不等,而 Mamba 模型為 64 層。所有模型均使用 SwiGLU 啟用函式,詞彙表大小為 13.1 萬 token(Mamba-7B 為 6.5 萬)。Falcon3-7B-Base 在最大量的資料上進行訓練,以確保對概念和知識的全面覆蓋,而其他變體所需的資料量要少得多。



Training efficiency


下表突出了 Falcon3-7B-Base 和 Falcon3-10B-Base 在關鍵基準測試上的效能,顯示出在通用、數學、推理和常識理解領域的競爭優勢。歡迎檢視模型的卡片,我們在其中提供了額外的評估結果(例如 MT-Bench、Alpaca 等)。

Training efficiency


如下表所示,指令微調模型也展現出與同等規模和更小規模模型相比具有競爭力和超強的效能。

指令微調模型

Falcon3-1B-Instruct 和 Falcon3-3B-Instruct 在評估的基準測試中均取得了穩健的效能。具體來說,Falcon3-1B 在 IFEval (54.4)、MUSR (40.7) 和 SciQ (86.8) 上取得了有競爭力的結果,而 Falcon3-3B 則表現出進一步的提升——尤其是在 MMLU-PRO (29.7) 和 MATH (19.9) 上——展示了清晰的規模效應。儘管它們並未在所有指標上超越所有競爭模型,但與 Qwen 和 Llama 相比,Falcon 模型在推理和常識理解方面表現出強大的效能。在我們的內部評估流程中:

  • 我們使用 lm-evaluation harness
  • 我們報告的是應用聊天模板後獲得的原始分數未使用 fewshot_as_multiturn(與 Llama3.1 不同)。
  • 我們對所有模型使用相同的批次大小 (batch-size)。



Training efficiency


此外,Falcon3-7B 和 Falcon3-10B 在評估的基準測試中表現穩健。Falcon3-7B 在推理(Arc Challenge: 65.9, MUSR: 46.4)和數學(GSM8K: 79.1)方面取得了有競爭力的分數,而 Falcon3-10B 則展示了進一步的提升,尤其是在 GSM8K (83.1) 和 IFEval (78) 上,表明了清晰的規模效益。

Training efficiency


開源承諾

為了履行我們促進 AI 可及性和協作的使命,Falcon3 系列中的所有模型都根據 Falcon LLM 許可證 釋出。我們希望 AI 社群能發現這些模型對於研究、應用開發和進一步實驗的價值。Falcon3 不是我們努力的終點,而是我們創造更強大、更高效、更專業的基礎模型的延續。在 2025 年 1 月,我們將進一步釋出 Falcon3 系列的其他模型,這些模型將具備增強的多模態能力,包括影像、影片和音訊支援,並會發布一份涵蓋我們方法的完整技術報告。在我們不斷完善和推進這些技術的過程中,我們歡迎社群的反饋和協作。

實用連結

致謝

我們熱烈感謝以下人員在生態系統中的順利支援和整合。

引用

如果 Falcon3 模型系列對您的工作有所幫助,歡迎引用我們。

@misc{Falcon3,
    title = {The Falcon 3 Family of Open Models},
    url = {https://huggingface.co/blog/falcon3},
    author = {Falcon-LLM Team},
    month = {December},
    year = {2024}
}

社群

註冊登入以發表評論

© . This site is unofficial and not affiliated with Hugging Face, Inc.