小型のドラフトモデルが複数トークンを先行提案し、大型モデルが並列検証する推論高速化技術。
投機的デコーディング(Speculative Decoding)とは、小型の「ドラフトモデル」が複数トークンを先行して提案し、大型の「検証モデル」がそれらを並列に検証・採否判定することで、推論速度を 2〜3 倍に高速化する技術である。
通常の LLM 推論は 1 トークンずつ逐次生成するため、モデルが大きいほど各ステップの計算コストが増し、応答が遅くなる。投機的デコーディングはこの逐次性を緩和する。
ドラフトモデルの提案が「当たる」確率が高いほど、検証モデルの呼び出し回数が減り高速化の効果が大きくなる。
重要な点として、投機的デコーディングは検証モデルの出力分布を変えない。数学的にはドラフトモデルなしの場合と同一の出力が得られるため、品質を犠牲にせずに速度だけを改善できる。
大型モデルの高い精度を維持しつつレイテンシを下げたい場面——チャットボットのリアルタイム応答やコード補完——で特に有効だ。GPU コストの削減にもつながるため、推論コストが課題になっている本番システムでは検討に値する技術である。


推論時スケーリングとは、モデルの推論フェーズで使う計算量を動的に増減させることで、難しい問題にはより多くの「思考ステップ」を費やし、簡単な問題には即答する手法である。

Sparse Model(スパースモデル)とは、推論時にモデルの全パラメータではなく一部のみを活性化させるニューラルネットワークアーキテクチャの総称である。代表例として MoE(Mixture of Experts)があり、パラメータ総数を増やしつつも推論コストを抑えるという、Dense Model とは異なるスケーリング戦略をとる。

LLMに推論の中間ステップを明示的に生成させることで、複雑なタスクの正答率を向上させるプロンプト技法。



AI コーディングエージェント実践ガイド — Claude Code vs Codex で開発チームはどう変わるか
モデルのパラメータ精度を16bitから4bit等に下げてサイズを圧縮し、限られた計算資源での推論を可能にする最適化手法。