推論時スケーリング(Test-time Compute)推論時スケーリングとは、モデルの推論フェーズで使う計算量を動的に増減させることで、難しい問題にはより多くの「思考ステップ」を費やし、簡単な問題には即答する手法である。