小型語言模型 (SLM)：全面概述

社群文章釋出於 2025 年 2 月 22 日

過去幾年對於人工智慧來說是一個爆炸性的時期，大型語言模型 (LLM) 以其強大的功能令人驚歎，併為從聊天機器人到程式碼助手的一切提供支援。然而，並非所有應用程式都需要 LLM 的巨大規模和複雜性，所需的計算能力使其在許多用例中不切實際。這就是為什麼小型語言模型 (SLM) 應運而生，透過縮小尺寸使強大的人工智慧模型更易於使用。

讓我們來了解 SLM 是什麼，它們是如何縮小的，它們的優點和侷限性，實際用例，以及它們如何在移動和桌面裝置上使用。

什麼是小型語言模型？

小型語言模型 (SLM) 是傳統語言模型的輕量級版本，旨在資源受限的環境（如智慧手機、嵌入式系統或低功耗計算機）中高效執行。大型語言模型擁有數千億甚至數萬億個引數，而 SLM 通常只有**100 萬到 100 億個引數**。小型語言模型雖然尺寸顯著縮小，但仍保留了核心的自然語言處理 (NLP) 功能，如文字生成、摘要、翻譯和問答。

有些從業者不喜歡“小型語言模型”這個詞，因為數十億引數絕不小。他們更喜歡“小型大型語言模型”，但這聽起來很複雜。但大多數人還是選擇了“小型語言模型”，所以就叫 SLM 了。順便說一句，請注意，*它只是相對於大型模型而言才小。*

它們是如何縮小的？

縮小語言模型的過程涉及多種技術，旨在在不犧牲過多效能的情況下減小其尺寸。

知識蒸餾：利用從大型“教師”模型轉移的知識來訓練一個較小的“學生”模型。
剪枝：移除神經網路架構中冗餘或不那麼重要的引數。
量化：降低計算中使用的數值精度（例如，將浮點數轉換為整數）。

小型語言模型的示例

許多小而強大的語言模型已經出現，證明大小並非一切。以下示例是引數範圍從 10 億到 40 億的 SLM

Llama3.2-1B – 一個由 Meta 開發的10 億引數變體，針對邊緣裝置進行了最佳化。
Qwen2.5-1.5B – 一個來自阿里巴巴的模型，專為多語言應用設計，擁有15 億引數。
DeepSeeek-R1-1.5B - DeepSeek 的第一代推理模型，由 Qwen2.5 蒸餾而來，擁有15 億引數。
SmolLM2-1.7B – 來自 HuggingFaceTB，一個最先進的“小型”（17 億引數）語言模型，在專門的開放資料集（FineMath、Stack-Edu 和 SmolTalk）上進行訓練。
Phi-3.5-Mini-3.8B – 微軟小而強大的開放模型，擁有38 億引數，針對推理和程式碼生成進行了最佳化。
Gemma3-4B - 由 Google DeepMind 開發，這個輕量但強大的40 億引數模型支援多語言和多模態。

還有其他更強大的小型語言模型：Mistral 7B、Gemma 9B 和 Phi-4 14B（雖然我不確定擁有 140 億引數的 Phi-4 是否仍符合“小型”的定義，但它非常強大 :)

小型語言模型的優點

計算要求低——可以在消費級筆記型電腦、邊緣裝置和手機上執行。
能耗更低——高效的模型減少了功耗，使其更環保。
推理速度更快——更小的模型可以快速生成響應，非常適合即時應用程式。
裝置端 AI——無需網際網路連線或雲服務，增強了隱私和安全性。
部署成本更低——更低的硬體和雲成本使初創公司和開發人員更容易使用 AI。
可定製性：易於針對特定領域任務進行微調（例如，法律檔案分析）。

小型語言模型的侷限性

儘管 SLM 具有諸多優勢，但它們也伴隨著一些權衡：

範圍狹窄：在訓練領域之外的泛化能力有限（例如，醫療 SLM 難以處理編碼）。
偏見風險：如果資料集未經仔細篩選，較小的資料集可能會放大偏見。
複雜性降低：較小的模型可能難以處理需要深入理解上下文的高度細緻或複雜的任務。
魯棒性較差：在模糊場景或面對對抗性輸入時，它們更容易出錯。

小型語言模型的實際應用

儘管存在侷限性，SLM 仍有廣泛的實際應用。

聊天機器人和虛擬助手：高效到足以在移動裝置上執行，同時提供即時互動。
程式碼生成：Phi-3.5 Mini 等模型協助開發人員編寫和除錯程式碼。
語言翻譯：輕量級模型可以為旅行者提供裝置端翻譯。
摘要和內容生成：企業使用 SLM 生成營銷文案、社交媒體帖子和報告。
醫療保健應用：用於症狀檢查和醫學研究的裝置端人工智慧。
物聯網和邊緣計算：在智慧家居裝置上執行人工智慧，無需依賴雲服務。
教育工具：輔導系統可以利用 SLM 即時生成個性化解釋、測驗和反饋。

在邊緣裝置上執行小型語言模型

SLM 將 AI 功能直接帶到您的智慧手機（使用 PockPal）或 PC（使用 Ollama），提供離線訪問、增強的隱私和更低的延遲。

使用 PocketPal 在移動裝置上執行 SLM

對於有興趣親身體驗 SLM 的使用者，PocketPal AI 應用程式提供了一種直觀的方式，可以直接在智慧手機上與這些模型進行互動，而無需網際網路連線。無論您是想起草電子郵件、集思廣益還是快速獲取答案，PocketPal 都能提供由最佳化的 SLM 提供支援的無縫介面。其離線功能確保您的查詢保持私密。

功能

離線 AI 助手：在您的裝置上直接執行語言模型，無需網際網路連線。
模型靈活性：下載並在多個 SLM 之間切換——例如 Phi、Gemma、Qwen 及其他。
自動解除安裝/載入：當應用程式在後臺執行時，透過解除安裝模型自動管理記憶體。
推理設定：自定義模型引數，如系統提示、溫度、BOS 標記和聊天模板。
即時效能指標：在 AI 響應生成過程中檢視每秒標記數和每個標記毫秒數。

在 iOS 和 Android 上下載 PocketPal AI

使用 Ollama 在 PC 上執行 SLM

Ollama 是一款開源工具，可簡化 SLM 在 PC 上的部署。

本地管理：以最少的設定執行 Llama3.2-1B 或 Phi-3.5 Mini 等模型。
GPU 最佳化：利用消費級 GPU 加快推理速度。
自定義工作流：將 SLM 整合到資料管道或創意工具中（例如，自動化程式碼審查）。

Ollama 入門

從 ollama.com 安裝 Ollama
開啟終端並下載模型

ollama pull qwen2.5:1.5b

互動式執行模型

ollama run qwen2.5:1.5b

此設定支援本地 AI 聊天機器人、編碼助手和文件摘要，無需雲服務。

微調小型語言模型

SLM 最令人興奮的方面之一是它們透過微調實現的適應性。透過讓 SLM 接觸特定領域的資料集，您可以增強其在利基應用中的效能。

例如

對法律檔案模型進行微調，以建立合同分析助手。
訓練 SLM 處理技術手冊，為工程師提供故障排除指南。

微調 SLM 有幾種方法：

完全微調——用新資料重新訓練所有引數（需要大量計算）。
LoRA (Low-Rank Adaptation)——只微調少量層，使其輕量高效。
介面卡和提示微調——新增額外層或最佳化提示以引導模型響應。

示例：使用 Hugging Face 的 peft 庫進行 LoRA 微調

from peft import LoraConfig, get_peft_model
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "gemma-2-2b"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

config = LoraConfig(r=8, lora_alpha=16, lora_dropout=0.1)
model = get_peft_model(model, config)

# Train the model on new data...

微調不僅提高了準確性，還確保模型與您的獨特需求緊密契合。