推論時スケーリング(Test-time Compute)
すいろんじすけーりんぐ

推論時スケーリングとは、モデルの推論フェーズで使う計算量を動的に増減させることで、難しい問題にはより多くの「思考ステップ」を費やし、簡単な問題には即答する手法である。
学習を大きくするか、推論を長くするか
従来のLLMの性能向上は「学習時スケーリング」が中心だった。より多くのデータ、より大きなモデル、より長い学習時間。GPT-3からGPT-4への進化はこの路線の典型だ。
推論時スケーリングは発想が異なる。モデルのサイズは据え置きで、推論時に使う計算量を問題の難易度に応じて変える。「今日の天気は?」には1ステップで答え、「この数学の証明を検証して」には数十ステップの内部推論を行う。OpenAI の o1/o3 や Anthropic の Claude の extended thinking がこのアプローチを採用している。
仕組み
モデルが内部で「思考トークン」を生成し、最終回答に至るまでの推論過程を明示的に展開する。Chain-of-Thought(CoT)プロンプティングを外部から指示するのではなく、モデル自体が必要に応じて長い推論チェーンを生成する点が異なる。
計算予算の制御方法はモデルによって違う。トークン数の上限を設定する方式、信頼度が閾値を超えたら打ち切る方式、複数の推論パスを並列実行して多数決を取る方式(Best-of-N)などがある。
なぜ注目されているか
学習時スケーリングには「データの壁」と「コストの壁」がある。質の高い学習データは有限であり、モデルを2倍にするコストは単純に2倍では済まない。一方、推論時スケーリングは必要なときだけコストをかける従量制に近い。簡単なクエリが大半を占める実運用では、平均コストを抑えつつ難問への対応力を上げられる。
2026年時点では、学習時スケーリングと推論時スケーリングの両方を組み合わせた「ハイブリッドスケーリング」が主流になりつつある。
関連用語

AI ROI(AI投資対効果)
AI ROIとは、AI導入・運用に投じたコストに対して得られた業務効率化・収益改善などの効果を定量的に測定する指標のこと。

AIオブザーバビリティ(AI Observability)
本番稼働中のAIシステムの入出力・レイテンシ・コスト・品質を継続的に監視・可視化する運用プラクティス。ハルシネーションやドリフトの早期検出に不可欠。

BPO(ビジネス・プロセス・アウトソーシング)
BPOとは、企業が特定の業務プロセスを外部の専門業者に委託するアウトソーシング形態のこと。AI活用による自動化と組み合わせたAIハイブリッドBPOが近年注目されている。

ERP(エンタープライズ・リソース・プランニング)
ERP(エンタープライズ・リソース・プランニング)とは、財務・購買・製造・人事などの基幹業務データを一元管理し、経営意思決定を支援する統合型業務管理システムのこと。