コンテキストウィンドウとは、LLMが一度に処理できるトークン数の上限のことで、入力プロンプトと出力を合わせた最大長を指す。長いドキュメントの処理やマルチターン会話の品質に直接影響する。
コンテキストウィンドウ(Context Window)とは、LLMが一度の推論処理で扱えるトークン数の上限のことで、入力プロンプトと出力を合わせた最大長を指す。この上限を超えたテキストはモデルが「見えない」状態になるため、長文ドキュメントの処理精度やマルチターン会話の品質に直接的な影響を与える重要なパラメータである。
LLM(大規模言語モデル)はテキストをトークン(Token)という単位に分割して処理する。コンテキストウィンドウはこのトークン数の「器」にあたり、器が小さければ長い文書を一度に読み込めず、器が大きければより広い情報を参照しながら推論できる。
実務上の影響は次の2点に集約される。
近年のモデルは数十万〜百万トークン規模のコンテキストウィンドウを持つものも登場しており、GPTやClaude、Geminiといった主要モデルはそれぞれ異なる上限を設定している。
コンテキストウィンドウの大きさはモデルのアーキテクチャ、特にAttention機構の設計と密接に関わる。Transformerは入力全体に対してSelf-Attentionを計算するため、トークン数が増えると計算量とGPU(Graphics Processing Unit)メモリ消費が急増する。これがウィンドウを無制限に拡張できない根本的な理由だ。
また、コンテキストウィンドウが大きくても「ウィンドウの中央付近の情報を見落としやすい」という傾向が研究で指摘されている。長い文脈の先頭と末尾は記憶されやすいが、中間部分は注意が薄れる「Lost in the Middle」問題として知られる。コンテキストウィンドウの数値だけを見て処理品質を判断するのは危険であり、ハルシネーション(Hallucination)のリスクとあわせて評価する必要がある。
コンテキストウィンドウの制約を補う代表的なアプローチがRAG(Retrieval-Augmented Generation)である。全文書をウィンドウに詰め込む代わりに、必要な情報を検索して動的に注入することで、実質的な参照範囲を拡張できる。チャンクサイズの設計はこの文脈で特に重要で、1チャンクが大きすぎるとウィンドウを圧迫し、小さすぎると文脈が途切れる。
AIエージェントやマルチエージェントシステムでは、複数のエージェントが連携してタスクを分担することで、単一モデルのコンテキスト上限を超えた長大な処理を実現する設計も一般的になっている。コンテキスト・エンジニアリングという概念も注目されており、限られたウィンドウの中に何をどの順序で入れるかを戦略的に設計する技術として体系化されつつある。
コンテキストウィンドウを扱う際に見落とされがちな点として、入力と出力の合算がある。たとえばウィンドウが128,000トークンのモデルに対し、120,000トークンのプロンプトを与えると、出力できるのは残り8,000トークンに限られる。長い出力が必要なユースケース——推論モデル(Reasoning Model)を使ったマルチステップ推論や、Claude Codeのようなコード生成タスクなど——では、出力トークンの余白設計が品質を左右する。
コンテキストウィンドウは「大きければ良い」という単純な指標ではなく、コスト・レイテンシ・精度のトレードオフを踏まえて適切に活用することが、LLMを本番環境で運用する上での核心的な設計判断となる。


A2A(Agent-to-Agent Protocol)とは、異なる AI エージェント同士が能力の発見・タスクの委譲・状態の同期を行うための通信プロトコルであり、Google が 2025 年 4 月に公開した。

AES-256 とは、米国国立標準技術研究所(NIST)が標準化した共通鍵暗号方式 AES(Advanced Encryption Standard)のうち、鍵長 256 ビットを使用する最高強度の暗号アルゴリズムである。

Agent Skills とは、AI エージェントに特定のタスクや専門知識を実行させるために定義された再利用可能な命令セットであり、エージェントの能力を拡張するモジュール単位として機能する。


Agentic AI とは、人間の逐一の指示なしに目標を解釈し、計画の立案・実行・検証を自律的に繰り返す AI システムの総称である。