コンテキストウィンドウ（Context Window）とは？

コンテキストウィンドウ（Context Window）とは、LLMが一度の推論処理で扱えるトークン数の上限のことで、入力プロンプトと出力を合わせた最大長を指す。この上限を超えたテキストはモデルが「見えない」状態になるため、長文ドキュメントの処理精度やマルチターン会話の品質に直接的な影響を与える重要なパラメータである。

なぜコンテキストウィンドウが重要なのか

LLM（大規模言語モデル）はテキストをトークン（Token）という単位に分割して処理する。コンテキストウィンドウはこのトークン数の「器」にあたり、器が小さければ長い文書を一度に読み込めず、器が大きければより広い情報を参照しながら推論できる。

実務上の影響は次の2点に集約される。

長文処理の可否: 法律文書・財務報告書・ソースコードのリポジトリ全体など、数万〜数十万トークンに及ぶ資料を一括で与えられるかどうかが変わる
会話の継続性: チャットボットやAIエージェントがやり取りの履歴をどこまで「記憶」できるかは、コンテキストウィンドウの大きさに依存する

近年のモデルは数十万〜百万トークン規模のコンテキストウィンドウを持つものも登場しており、GPTやClaude、Geminiといった主要モデルはそれぞれ異なる上限を設定している。

技術的な仕組みと制約

コンテキストウィンドウの大きさはモデルのアーキテクチャ、特にAttention機構の設計と密接に関わる。Transformerは入力全体に対してSelf-Attentionを計算するため、トークン数が増えると計算量とGPU（Graphics Processing Unit）メモリ消費が急増する。これがウィンドウを無制限に拡張できない根本的な理由だ。

また、コンテキストウィンドウが大きくても「ウィンドウの中央付近の情報を見落としやすい」という傾向が研究で指摘されている。長い文脈の先頭と末尾は記憶されやすいが、中間部分は注意が薄れる「Lost in the Middle」問題として知られる。コンテキストウィンドウの数値だけを見て処理品質を判断するのは危険であり、ハルシネーション（Hallucination）のリスクとあわせて評価する必要がある。

RAGやエージェントとの関係

コンテキストウィンドウの制約を補う代表的なアプローチがRAG（Retrieval-Augmented Generation）である。全文書をウィンドウに詰め込む代わりに、必要な情報を検索して動的に注入することで、実質的な参照範囲を拡張できる。チャンクサイズの設計はこの文脈で特に重要で、1チャンクが大きすぎるとウィンドウを圧迫し、小さすぎると文脈が途切れる。

AIエージェントやマルチエージェントシステムでは、複数のエージェントが連携してタスクを分担することで、単一モデルのコンテキスト上限を超えた長大な処理を実現する設計も一般的になっている。コンテキスト・エンジニアリングという概念も注目されており、限られたウィンドウの中に何をどの順序で入れるかを戦略的に設計する技術として体系化されつつある。

実装時の注意点

コンテキストウィンドウを扱う際に見落とされがちな点として、入力と出力の合算がある。たとえばウィンドウが128,000トークンのモデルに対し、120,000トークンのプロンプトを与えると、出力できるのは残り8,000トークンに限られる。長い出力が必要なユースケース——推論モデル（Reasoning Model）を使ったマルチステップ推論や、Claude Codeのようなコード生成タスクなど——では、出力トークンの余白設計が品質を左右する。

コンテキストウィンドウは「大きければ良い」という単純な指標ではなく、コスト・レイテンシ・精度のトレードオフを踏まえて適切に活用することが、LLMを本番環境で運用する上での核心的な設計判断となる。

コンテキストウィンドウ（Context Window）

なぜコンテキストウィンドウが重要なのか

技術的な仕組みと制約

RAGやエージェントとの関係

実装時の注意点

関連用語

AI ROI（AI投資対効果）

AIオブザーバビリティ（AI Observability）

BPO（ビジネス・プロセス・アウトソーシング）

ERP（エンタープライズ・リソース・プランニング）