Sparse Model(スパースモデル)とは、推論時にモデルの全パラメータではなく一部のみを活性化させるニューラルネットワークアーキテクチャの総称である。代表例として MoE(Mixture of Experts)があり、パラメータ総数を増やしつつも推論コストを抑えるという、Dense Model とは異なるスケーリング戦略をとる。
## 「疎」であることの意味 ニューラルネットワークの文脈で「Sparse(疎)」とは、ネットワーク内の接続やパラメータのうち実際に使われる割合が少ない状態を指す。Dense Model が入力に関わらず全パラメータを演算に使うのに対し、Sparse Model は入力ごとに異なるパラメータのサブセットだけを活性化させる。この仕組みの直感的な理解として、大きな図書館を想像するとわかりやすい。
Dense Model は質問のたびに全蔵書を読み直す図書館員、Sparse Model は質問に応じて関連する書架だけを参照する図書館員だ。## MoE との関係 現在の Sparse Model の主流は MoE アーキテクチャである。MoE ではルーターが各入力トークンを少数のエキスパート(通常 2〜4 個)に振り分け、選ばれなかったエキスパートは演算をスキップする。
ただし Sparse Model は MoE に限定されない。重みの大部分をゼロにする「非構造化スパース性」や、特定の注意ヘッドを動的に無効化する手法もスパースモデルの範疇に入る。MoE はその中で最も実用化が進んだ一形態にすぎない。
## Dense Model との選択基準 Sparse Model の利点は明確で、同じ推論コストでより多くの「知識」をモデルに持たせられる。Mixtral 8x7B は総パラメータ 46.7B だが活性パラメータは 12.9B であり、推論コストは 13B 級の Dense Model と同等ながら、性能は 70B 級に迫る。一方で課題もある。
エキスパート間の負荷分散(load balancing)の設計が難しく、特定のエキスパートに入力が集中するとスパース性の恩恵が薄れる。また GPU メモリには全エキスパートを載せる必要があり、メモリ効率は Dense Model ほど単純ではない。


Dense Model(密結合モデル)とは、推論時にモデルの全パラメータを使って計算を行うニューラルネットワークアーキテクチャのことである。MoE(Mixture of Experts)がエキスパートの一部だけを活性化させるのに対し、Dense Model は入力に関わらず常にすべての重みが演算に関与する。

MoE(Mixture of Experts)とは、モデル内部に複数の「エキスパート」サブネットワークを持ち、入力ごとにその一部だけを活性化させることで、パラメータ総数を増やしつつ推論コストを抑えるアーキテクチャである。

SLM(Small Language Model)とは、パラメータ数を数十億〜百億程度に抑えた言語モデルの総称で、LLMに比べ少ない計算資源で推論・Fine-tuningが可能なことを特徴とする。



PEFT(パラメータ効率型ファインチューニング)とは?AI モデルカスタマイズのコストを 90% 削減する技術
推論時スケーリングとは、モデルの推論フェーズで使う計算量を動的に増減させることで、難しい問題にはより多くの「思考ステップ」を費やし、簡単な問題には即答する手法である。