チャンクサイズとは、RAG パイプラインにおいて文書をベクトルストアに格納する際の分割単位の大きさ(トークン数や文字数)を指す。検索精度と回答品質に直結する重要なパラメータである。
LLM のコンテキストウィンドウには上限がある。数百ページの社内マニュアルをそのまま渡すことはできないため、文書を適切な粒度に分割(チャンキング)してベクトル化し、質問に関連する部分だけを検索・取得する必要がある。このとき「どの程度の大きさで切るか」がチャンクサイズの問題になる。
チャンクが小さすぎると、1つのチャンクに含まれる文脈が不足し、検索でヒットしても LLM が回答を組み立てるのに必要な情報が欠ける。逆に大きすぎると、無関係な情報がノイズとして混入し、回答精度が下がるうえにトークンコストも増える。
一般的には 256〜1,024 トークン程度が出発点とされるが、最適値はドメインと質問の性質に依存する。FAQ のような短い Q&A なら小さめ、技術仕様書のような前後の文脈が重要な文書なら大きめに設定する、というのが実務での基本方針だ。
チャンク境界で文脈が途切れる問題を緩和するために、隣接チャンクを一部重複させる「オーバーラップ」がよく使われる。たとえばチャンクサイズ 512 トークン、オーバーラップ 64 トークンなら、前のチャンクの末尾 64 トークンが次のチャンクの先頭にも含まれる。BM25 やベクトル検索の精度向上に寄与するが、ストレージとインデックスサイズは増加する。



ローカル LLM / SLM 導入比較 — クラウド API に依存しない AI 活用
ナレッジグラフとベクトル検索を組み合わせ、エンティティ間の関係性を活用して検索精度を向上させる次世代RAGアーキテクチャ。