Sparse Model（スパースモデル）とは？図解で学ぶAI・DX・セキュリティ用語集

Sparse Model（スパースモデル）とは、推論時にモデルの全パラメータではなく一部のみを活性化させるニューラルネットワークアーキテクチャの総称である。代表例として MoE（Mixture of Experts）があり、パラメータ総数を増やしつつも推論コストを抑えるという、Dense Model とは異なるスケーリング戦略をとる。

「疎」であることの意味

ニューラルネットワークの文脈で「Sparse（疎）」とは、ネットワーク内の接続やパラメータのうち実際に使われる割合が少ない状態を指す。Dense Model が入力に関わらず全パラメータを演算に使うのに対し、Sparse Model は入力ごとに異なるパラメータのサブセットだけを活性化させる。

この仕組みの直感的な理解として、大きな図書館を想像するとわかりやすい。Dense Model は質問のたびに全蔵書を読み直す図書館員、Sparse Model は質問に応じて関連する書架だけを参照する図書館員だ。

MoE との関係

現在の Sparse Model の主流は MoE アーキテクチャである。MoE ではルーターが各入力トークンを少数のエキスパート（通常 2〜4 個）に振り分け、選ばれなかったエキスパートは演算をスキップする。

ただし Sparse Model は MoE に限定されない。重みの大部分をゼロにする「非構造化スパース性」や、特定の注意ヘッドを動的に無効化する手法もスパースモデルの範疇に入る。MoE はその中で最も実用化が進んだ一形態にすぎない。

Dense Model との選択基準

Sparse Model の利点は明確で、同じ推論コストでより多くの「知識」をモデルに持たせられる。Mixtral 8x7B は総パラメータ 46.7B だが活性パラメータは 12.9B であり、推論コストは 13B 級の Dense Model と同等ながら、性能は 70B 級に迫る。

一方で課題もある。エキスパート間の負荷分散（load balancing）の設計が難しく、特定のエキスパートに入力が集中するとスパース性の恩恵が薄れる。また GPU メモリには全エキスパートを載せる必要があり、メモリ効率は Dense Model ほど単純ではない。

Sparse Model（スパースモデル）

「疎」であることの意味

MoE との関係

Dense Model との選択基準

関連する用語

Dense Model（密結合モデル）

MoE（Mixture of Experts）

投機的デコーディング（Speculative Decoding）

Let's discuss your needs

SLM（Small Language Model）