推論時スケーリングとは、モデルの推論フェーズで使う計算量を動的に増減させることで、難しい問題にはより多くの「思考ステップ」を費やし、簡単な問題には即答する手法である。
## 学習を大きくするか、推論を長くするか 従来のLLMの性能向上は「学習時スケーリング」が中心だった。より多くのデータ、より大きなモデル、より長い学習時間。GPT-3からGPT-4への進化はこの路線の典型だ。
推論時スケーリングは発想が異なる。モデルのサイズは据え置きで、推論時に使う計算量を問題の難易度に応じて変える。「今日の天気は?」には1ステップで答え、「この数学の証明を検証して」には数十ステップの内部推論を行う。
OpenAI の o1/o3 や Anthropic の Claude の extended thinking がこのアプローチを採用している。## 仕組み モデルが内部で「思考トークン」を生成し、最終回答に至るまでの推論過程を明示的に展開する。Chain-of-Thought(CoT)プロンプティングを外部から指示するのではなく、モデル自体が必要に応じて長い推論チェーンを生成する点が異なる。
計算予算の制御方法はモデルによって違う。トークン数の上限を設定する方式、信頼度が閾値を超えたら打ち切る方式、複数の推論パスを並列実行して多数決を取る方式(Best-of-N)などがある。## なぜ注目されているか 学習時スケーリングには「データの壁」と「コストの壁」がある。
質の高い学習データは有限であり、モデルを2倍にするコストは単純に2倍では済まない。一方、推論時スケーリングは必要なときだけコストをかける従量制に近い。簡単なクエリが大半を占める実運用では、平均コストを抑えつつ難問への対応力を上げられる。
2026年時点では、学習時スケーリングと推論時スケーリングの両方を組み合わせた「ハイブリッドスケーリング」が主流になりつつある。


TDD(Test-Driven Development)とは、実装コードを書く前にテストを書き、テスト失敗(RED)→実装(GREEN)→リファクタリング(Refactor)の短いサイクルを繰り返す開発手法である。

機能テスト(フィーチャーテスト)とは、特定の機能やユースケース単位でシステムの振る舞いを検証するテスト手法である。単体テストより広い範囲を対象とし、複数のモジュールが連携して正しく動作するかを確認する。

コンテキスト・エンジニアリング(Context Engineering)とは、AI モデルに与えるコンテキスト——コードベースの構造、コミット履歴、設計意図、ドメイン知識——を体系的に設計・最適化する技術領域である。


AI コーディングエージェント実践ガイド — Claude Code vs Codex で開発チームはどう変わるか
ATDD(Acceptance Test-Driven Development)とは、開発着手前に受け入れテストの基準をチーム全体で定義し、そのテストを自動化してから実装を進める開発手法である。