Transformers 文件

Falcon3

Hugging Face's logo
加入 Hugging Face 社群

並獲得增強的文件體驗

開始使用

Falcon3

PyTorch Flax

概述

Falcon3 代表了從之前版本演進的自然發展,強調擴充套件模型的科學、數學和程式碼能力。此版本包括五個基礎模型:Falcon3-1B-Base、Falcon3-3B-Base、Falcon3-Mamba-7B-Base、Falcon3-7B-Base 和 Falcon3-10B-Base。在開發這些模型時,我們融入了多項關鍵創新,旨在提高模型效能,同時降低訓練成本。

一次預訓練:我們使用 2048 個 H100 GPU 晶片對 7B 模型進行了單次大規模預訓練,利用了 14 萬億個令牌,這些令牌包含網路、程式碼、科學、技術、工程和數學(STEM)以及精選的高質量多語言資料。深度上取樣以改進推理:基於近期關於模型深度影響的研究,我們透過複製冗餘層並將高質量資料繼續預訓練 2TT,將 7B 模型上取樣到 10B 引數模型。這產生了 Falcon3-10B-Base,它在 13B 引數以下的模型中實現了最先進的零樣本和少樣本效能。知識蒸餾以獲得更好的微型模型:為了提供緊湊高效的替代方案,我們透過利用剪枝和知識蒸餾技術,使用不到 100GT 的精選高質量資料,開發了 Falcon3-1B-Base 和 Falcon3-3B-Base,從而重新定義了預訓練效率。

資源

< > 在 GitHub 上更新

© . This site is unofficial and not affiliated with Hugging Face, Inc.