推論時スケーリング(Test-time Compute)

すいろんじすけーりんぐ

推論時スケーリング(Test-time Compute)

推論時スケーリングとは、モデルの推論フェーズで使う計算量を動的に増減させることで、難しい問題にはより多くの「思考ステップ」を費やし、簡単な問題には即答する手法である。

学習を大きくするか、推論を長くするか

従来のLLMの性能向上は「学習時スケーリング」が中心だった。より多くのデータ、より大きなモデル、より長い学習時間。GPT-3からGPT-4への進化はこの路線の典型だ。

推論時スケーリングは発想が異なる。モデルのサイズは据え置きで、推論時に使う計算量を問題の難易度に応じて変える。「今日の天気は?」には1ステップで答え、「この数学の証明を検証して」には数十ステップの内部推論を行う。OpenAI の o1/o3 や Anthropic の Claude の extended thinking がこのアプローチを採用している。

仕組み

モデルが内部で「思考トークン」を生成し、最終回答に至るまでの推論過程を明示的に展開する。Chain-of-Thought(CoT)プロンプティングを外部から指示するのではなく、モデル自体が必要に応じて長い推論チェーンを生成する点が異なる。

計算予算の制御方法はモデルによって違う。トークン数の上限を設定する方式、信頼度が閾値を超えたら打ち切る方式、複数の推論パスを並列実行して多数決を取る方式(Best-of-N)などがある。

なぜ注目されているか

学習時スケーリングには「データの壁」と「コストの壁」がある。質の高い学習データは有限であり、モデルを2倍にするコストは単純に2倍では済まない。一方、推論時スケーリングは必要なときだけコストをかける従量制に近い。簡単なクエリが大半を占める実運用では、平均コストを抑えつつ難問への対応力を上げられる。

2026年時点では、学習時スケーリングと推論時スケーリングの両方を組み合わせた「ハイブリッドスケーリング」が主流になりつつある。