SLM(Small Language Model)

えすえるえむ

SLM(Small Language Model)

SLM(Small Language Model)とは、パラメータ数を数十億〜百億程度に抑えた言語モデルの総称で、LLMに比べ少ない計算資源で推論・Fine-tuningが可能なことを特徴とする。

「小さい」は弱いという意味ではない

LLMの世界では長らく「大きいほど賢い」が常識だった。GPT-4の推定1.8兆パラメータに対し、SLMは1B〜10B程度。桁が2つ違う。しかし2025年以降、この常識は急速に崩れつつある。

MicrosoftのPhi-4(14B)はいくつかの推論ベンチマークでGPT-4oに匹敵するスコアを出した。Googleの Gemma 3は1B〜27Bの範囲で、サイズあたりの性能が極めて高い。モデルアーキテクチャの改善と高品質な学習データのキュレーションによって、「小さくても特定タスクには十分な性能」が現実になった。

どこで使われているか

SLMの主戦場は3つある。

エッジデバイス: スマートフォン、IoTゲートウェイ、組み込み機器など、GPUリソースが限られる環境。AppleがiPhone上でオンデバイス推論を実行しているのはSLMの典型例だ。

コスト最適化: 分類・要約・データ抽出のような定型タスクにGPT-4クラスを使うのはオーバースペック。SLMなら推論コストが10分の1以下になることもある。

レイテンシ要件: リアルタイムチャット、音声応答、ゲームAIなど、数十ミリ秒の応答が求められる場面。パラメータが少ない分、推論速度は桁違いに速い。

LLMとの使い分け

万能な回答が必要な場面(複雑な推論、多言語対応、長文生成)にはLLMが依然として優位だ。一方、タスクを絞れるならSLMをFine-tuningした方が精度・速度・コストすべてで勝る場合がある。

実務では「まずLLM APIでプロトタイプを作り、タスクが固まったらSLMに蒸留してコストを下げる」という流れが定番になりつつある。蒸留(distillation)とは、大きなモデルの出力を教師データとして小さなモデルを訓練する手法のことだ。