大規模な教師モデルの知識を小規模な生徒モデルに転移させ、軽量かつ高精度なモデルを作成する手法。
知識蒸留(Knowledge Distillation)とは、大規模な「教師モデル」の出力分布を学習データとして、小規模な「生徒モデル」を訓練する手法である。生徒モデルは教師モデルの推論パターンを模倣することで、パラメータ数を大幅に削減しながら高い精度を維持できる。
数百億パラメータの LLM をそのまま本番環境に載せると、GPU コストとレイテンシが事業の制約になる。かといってゼロから小型モデルを訓練すると、大型モデルほどの精度は出にくい。蒸留はこの矛盾を解く実用的なアプローチだ。
たとえば Microsoft の Phi シリーズは、大型モデルが生成した合成データで小型モデルを蒸留し、SLM(Small Language Model)でありながら大型モデルに迫る性能を達成している。
ファインチューニングは既存モデルの重みを調整してタスクに特化させる手法であり、モデルサイズは変わらない。蒸留はモデルサイズ自体を小さくする点が異なる。実務ではまず蒸留で小型化し、その後 LoRA 等で業務ドメインに適応させるパイプラインが一般的になりつつある。
教師モデルが苦手なタスクは生徒モデルも苦手になる。また、教師モデルの出力を大量に生成する必要があるため、蒸留プロセス自体の計算コストは軽視できない。


Sparse Model(スパースモデル)とは、推論時にモデルの全パラメータではなく一部のみを活性化させるニューラルネットワークアーキテクチャの総称である。代表例として MoE(Mixture of Experts)があり、パラメータ総数を増やしつつも推論コストを抑えるという、Dense Model とは異なるスケーリング戦略をとる。

Dense Model(密結合モデル)とは、推論時にモデルの全パラメータを使って計算を行うニューラルネットワークアーキテクチャのことである。MoE(Mixture of Experts)がエキスパートの一部だけを活性化させるのに対し、Dense Model は入力に関わらず常にすべての重みが演算に関与する。

小型のドラフトモデルが複数トークンを先行提案し、大型モデルが並列検証する推論高速化技術。


MoE(Mixture of Experts)とは、モデル内部に複数の「エキスパート」サブネットワークを持ち、入力ごとにその一部だけを活性化させることで、パラメータ総数を増やしつつ推論コストを抑えるアーキテクチャである。