SLM(Small Language Model)とは、パラメータ数を数十億〜百億程度に抑えた言語モデルの総称で、LLMに比べ少ない計算資源で推論・Fine-tuningが可能なことを特徴とする。
LLMの世界では長らく「大きいほど賢い」が常識だった。GPT-4の推定1.8兆パラメータに対し、SLMは1B〜10B程度。桁が2つ違う。しかし2025年以降、この常識は急速に崩れつつある。
MicrosoftのPhi-4(14B)はいくつかの推論ベンチマークでGPT-4oに匹敵するスコアを出した。Googleの Gemma 3は1B〜27Bの範囲で、サイズあたりの性能が極めて高い。モデルアーキテクチャの改善と高品質な学習データのキュレーションによって、「小さくても特定タスクには十分な性能」が現実になった。
SLMの主戦場は3つある。
エッジデバイス: スマートフォン、IoTゲートウェイ、組み込み機器など、GPUリソースが限られる環境。AppleがiPhone上でオンデバイス推論を実行しているのはSLMの典型例だ。
コスト最適化: 分類・要約・データ抽出のような定型タスクにGPT-4クラスを使うのはオーバースペック。SLMなら推論コストが10分の1以下になることもある。
レイテンシ要件: リアルタイムチャット、音声応答、ゲームAIなど、数十ミリ秒の応答が求められる場面。パラメータが少ない分、推論速度は桁違いに速い。
万能な回答が必要な場面(複雑な推論、多言語対応、長文生成)にはLLMが依然として優位だ。一方、タスクを絞れるならSLMをFine-tuningした方が精度・速度・コストすべてで勝る場合がある。
実務では「まずLLM APIでプロトタイプを作り、タスクが固まったらSLMに蒸留してコストを下げる」という流れが定番になりつつある。蒸留(distillation)とは、大きなモデルの出力を教師データとして小さなモデルを訓練する手法のことだ。


LLM(Large Language Model)とは、大量のテキストデータで事前学習された、数十億〜数兆のパラメータを持つニューラルネットワークモデルの総称であり、自然言語の理解・生成を高い精度で行う。

LoRA(Low-Rank Adaptation)とは、大規模言語モデルの重み行列に低ランクの差分行列を挿入し、その差分だけを学習させることでモデル全体の 0.1〜1% 程度のパラメータ追加でファインチューニングを実現する手法である。

Sparse Model(スパースモデル)とは、推論時にモデルの全パラメータではなく一部のみを活性化させるニューラルネットワークアーキテクチャの総称である。代表例として MoE(Mixture of Experts)があり、パラメータ総数を増やしつつも推論コストを抑えるという、Dense Model とは異なるスケーリング戦略をとる。


PEFT(パラメータ効率型ファインチューニング)とは?AI モデルカスタマイズのコストを 90% 削減する技術
MLOpsとは、機械学習モデルの開発・学習・デプロイ・監視のライフサイクル全体を自動化・標準化し、本番環境で継続的にモデルを運用するためのプラクティスである。