Dense Model(密結合モデル)

でんすもでる

Dense Model(密結合モデル)

Dense Model(密結合モデル)とは、推論時にモデルの全パラメータを使って計算を行うニューラルネットワークアーキテクチャのことである。MoE(Mixture of Experts)がエキスパートの一部だけを活性化させるのに対し、Dense Model は入力に関わらず常にすべての重みが演算に関与する。

なぜ「Dense」と呼ぶのか

もともとニューラルネットワークの世界では、全結合層(fully connected layer)を dense layer と呼ぶ慣習がある。Dense Model という呼称は、モデル全体がこの「隙間のない結合」で構成されている——つまり推論のたびに全パラメータが動く——という構造的特徴を端的に表している。

対義語として登場したのが MoE(Mixture of Experts)アーキテクチャだ。MoE ではルーティング機構が入力トークンごとに少数のエキスパートだけを選び出し、残りは休眠させる。結果として、パラメータ総数が同じでも推論時の計算量(FLOPs)は大幅に少なくなる。Mixtral 8x7B が「パラメータ 46.7B だが活性パラメータは 12.9B」と説明されるのは、この仕組みによる。

Dense Model の強みと限界

Dense Model の最大の利点は設計のシンプルさにある。ルーティングの不均衡やエキスパート間の負荷偏り(load balancing)を気にする必要がなく、学習の安定性が高い。Llama 3 シリーズや Claude のような主要モデルが Dense アーキテクチャを採用し続けているのは、この安定性が大規模学習で大きな意味を持つからだ。

一方で、パラメータ数がそのまま推論コストに直結する点は避けられない。70B パラメータの Dense Model は推論のたびに 70B の重みすべてを読み出し演算する。同等の品質を MoE で達成できるなら、推論コストは数分の一で済む場合もある。

実務での判断基準

モデルを選定する場面では、Dense か MoE かという二項対立よりも、ワークロードとの適合性で判断するほうが実用的だ。

レイテンシが厳しいリアルタイム対話や、入出力パターンが多様で特定エキスパートへの偏りが読めないタスクでは、Dense Model の予測可能な計算コストが運用しやすい。逆に、バッチ推論で大量のテキストを処理する場合や、スループット重視のシナリオでは、MoE の計算効率が活きてくる。

筆者の経験では、プロダクション環境でモデルを切り替える際に最も影響が大きいのは「パラメータ数そのもの」よりも「GPU メモリへの載り方」だった。Dense 70B は A100 80GB×2 でぎりぎり、MoE で活性パラメータが 13B なら 1 枚で動く——この差がインフラコストを左右する。