推論時スケーリングとは、モデルの推論フェーズで使う計算量を動的に増減させることで、難しい問題にはより多くの「思考ステップ」を費やし、簡単な問題には即答する手法である。
従来のLLMの性能向上は「学習時スケーリング」が中心だった。より多くのデータ、より大きなモデル、より長い学習時間。GPT-3からGPT-4への進化はこの路線の典型だ。
推論時スケーリングは発想が異なる。モデルのサイズは据え置きで、推論時に使う計算量を問題の難易度に応じて変える。「今日の天気は?」には1ステップで答え、「この数学の証明を検証して」には数十ステップの内部推論を行う。OpenAI の o1/o3 や Anthropic の Claude の extended thinking がこのアプローチを採用している。
モデルが内部で「思考トークン」を生成し、最終回答に至るまでの推論過程を明示的に展開する。Chain-of-Thought(CoT)プロンプティングを外部から指示するのではなく、モデル自体が必要に応じて長い推論チェーンを生成する点が異なる。
計算予算の制御方法はモデルによって違う。トークン数の上限を設定する方式、信頼度が閾値を超えたら打ち切る方式、複数の推論パスを並列実行して多数決を取る方式(Best-of-N)などがある。
学習時スケーリングには「データの壁」と「コストの壁」がある。質の高い学習データは有限であり、モデルを2倍にするコストは単純に2倍では済まない。一方、推論時スケーリングは必要なときだけコストをかける従量制に近い。簡単なクエリが大半を占める実運用では、平均コストを抑えつつ難問への対応力を上げられる。
2026年時点では、学習時スケーリングと推論時スケーリングの両方を組み合わせた「ハイブリッドスケーリング」が主流になりつつある。


小型のドラフトモデルが複数トークンを先行提案し、大型モデルが並列検証する推論高速化技術。

LLMに推論の中間ステップを明示的に生成させることで、複雑なタスクの正答率を向上させるプロンプト技法。

Sparse Model(スパースモデル)とは、推論時にモデルの全パラメータではなく一部のみを活性化させるニューラルネットワークアーキテクチャの総称である。代表例として MoE(Mixture of Experts)があり、パラメータ総数を増やしつつも推論コストを抑えるという、Dense Model とは異なるスケーリング戦略をとる。



マルチエージェントAIとは?設計パターンから実装・運用の勘所まで
モデルのパラメータ精度を16bitから4bit等に下げてサイズを圧縮し、限られた計算資源での推論を可能にする最適化手法。