マルチステップ推論とは、LLM が1回の応答生成ではなく、複数の中間ステップ(サブ質問の生成、部分回答の検証、追加情報の取得など)を経て最終回答に到達する推論方式である。
「売上高はいくらか」のような事実検索は1ステップで完結する。しかし「売上高が前年比で最も伸びた部門の責任者が導入した施策は何か」のような質問は、売上データの比較→部門の特定→責任者の特定→施策情報の検索という複数の中間ステップを踏まなければ回答できない。
マルチステップ推論は、こうした複合的な質問を LLM が内部的に分解し、段階的に解いていくアプローチを指す。Chain-of-Thought(CoT)プロンプティングの延長線上にあるが、RAG と組み合わせる場合は各ステップで外部データソースへの検索を挟む点が異なる。
Agentic RAG は、マルチステップ推論をエージェントループとして実装したものと捉えられる。エージェントが「次に何を調べるべきか」を判断し、検索→評価→再検索のサイクルを回す。マルチステップ推論はその思考プロセスの設計パターンであり、Agentic RAG はそれを実行するアーキテクチャだ。
ステップ数が増えるほど回答の網羅性は上がるが、各ステップで LLM の推論コストと検索のレイテンシが積み上がる。実務では最大ステップ数に上限(3〜5回程度)を設け、途中で十分な情報が集まったら早期終了する設計が多い。


LLMに推論の中間ステップを明示的に生成させることで、複雑なタスクの正答率を向上させるプロンプト技法。

Agentic RAG とは、LLM がエージェントとして検索クエリの生成・結果の評価・再検索の判断を自律的に繰り返すことで、単純な一問一答型 RAG では得られない回答精度を実現するアーキテクチャである。

RAG(Retrieval-Augmented Generation)とは、外部の知識ソースから関連情報を検索し、その結果を LLM の入力に付加することで、回答の正確性と最新性を向上させる手法である。



AI チャットの「見えない攻撃経路」を塞ぐ — DB 経由プロンプトインジェクション対策の実装ガイド
RLHFとは人間のフィードバックを報酬として使う強化学習手法、RLVRとは検証可能な正解を報酬として使う強化学習手法であり、いずれもLLMの出力を人間の期待に沿うよう調整するために用いられる。