Transformers

加入 Hugging Face 社群

並獲得增強的文件體驗

在模型、資料集和 Spaces 上進行協作

透過加速推理獲得更快的示例

切換文件主題

開始使用

Falcon3

概述

Falcon3 代表了從之前版本演進的自然發展，強調擴充套件模型的科學、數學和程式碼能力。此版本包括五個基礎模型：Falcon3-1B-Base、Falcon3-3B-Base、Falcon3-Mamba-7B-Base、Falcon3-7B-Base 和 Falcon3-10B-Base。在開發這些模型時，我們融入了多項關鍵創新，旨在提高模型效能，同時降低訓練成本。

一次預訓練：我們使用 2048 個 H100 GPU 晶片對 7B 模型進行了單次大規模預訓練，利用了 14 萬億個令牌，這些令牌包含網路、程式碼、科學、技術、工程和數學（STEM）以及精選的高質量多語言資料。深度上取樣以改進推理：基於近期關於模型深度影響的研究，我們透過複製冗餘層並將高質量資料繼續預訓練 2TT，將 7B 模型上取樣到 10B 引數模型。這產生了 Falcon3-10B-Base，它在 13B 引數以下的模型中實現了最先進的零樣本和少樣本效能。知識蒸餾以獲得更好的微型模型：為了提供緊湊高效的替代方案，我們透過利用剪枝和知識蒸餾技術，使用不到 100GT 的精選高質量資料，開發了 Falcon3-1B-Base 和 Falcon3-3B-Base，從而重新定義了預訓練效率。

資源

< > 在 GitHub 上更新

←Falcon FalconH1→