テキストを頻出パターンで統合しサブワード単位に分割するアルゴリズム。LLM の入出力コストと処理速度に直結し、低リソース言語では専用語彙が不足するためバイトレベル分解が発生する。
BPEトークナイザー(Byte-Pair Encoding Tokenizer)とは、テキストを頻出する文字・文字列のパターンで統合しながらサブワード単位に分割するアルゴリズムであり、LLM(大規模言語モデル)の入出力コストおよび処理速度に直結する基盤技術である。
BPEはもともとデータ圧縮の手法として生まれた。これをNLP分野に応用したのが現在のトークナイザーの原型だ。動作原理はシンプルで、まず全文字を個別の単位として扱い、隣接する2つの記号のうち最も出現頻度が高いペアを1つの新しい記号に統合する。この操作を語彙サイズの上限に達するまで繰り返すことで、頻出語はそのまま1トークンに、希少語はサブワードや文字単位に分解される語彙テーブルが完成する。
具体的なプロセスを整理すると次のようになる。
この結果、「running」は run + ning に、「unhappiness」は un + happiness のように分割され、未知語でも意味のある断片として扱えるようになる。
トークン(Token)は LLM の課金・速度・コンテキスト長のすべての基準単位となる。同じ文章でも語彙設計の質によってトークン数は大きく変わり、AI ROI(AI投資対効果)に直接影響を与える。英語中心の語彙テーブルを日本語テキストに適用すると、漢字1文字が複数トークンに分解されることも珍しくなく、処理コストが数倍に膨らむケースがある。
マルチリンガルNLP(多言語自然言語処理)の文脈では、この問題はさらに深刻だ。低リソース言語ではそもそも学習コーパスが少なく、頻出ペアが形成されにくいため、単語が細かいサブワードや文字単位まで分解されやすい。こうした課題への対応策の一つとして、語彙をUnicodeのバイト列上で構築するバイトレベルBPEがある。バイトレベルBPEは未知語を原理的にゼロにできる汎用性を持つ一方、1文あたりのトークン数が増加し、モデルが意味的なまとまりを学習しにくくなるというトレードオフを抱える。
GPT系モデルはBPEをベースとした「tiktoken」ライブラリを採用し、Claude や Gemini も独自にチューニングされたサブワードトークナイザーを利用している。近年はBPEとは独立した確率モデルベースのアルゴリズムである Unigram Language Model も広く使われており、SentencePiece はBPEとUnigramの両アルゴリズムを実装したツールキットとして多くのモデルで採用されている。ベースモデル(Foundation Model)の設計段階でどのトークナイザーを選択するかが性能に大きく影響する。
ファインチューニングやPEFTでモデルをカスタマイズする場合も、ベースモデルのトークナイザーをそのまま引き継ぐのが一般的だ。語彙を後から追加・変更すると埋め込み層の再学習が必要になり、コストが跳ね上がるためである。
RAG(Retrieval-Augmented Generation)パイプラインを構築する際、チャンクサイズの設定はトークン数を基準に行うことが多い。このとき「文字数 ≠ トークン数」という前提を見落とすと、コンテキストウィンドウのオーバーフローや検索精度の低下につながる。特に日本語・中国語・アラビア語など非ラテン系言語では、同じ文字数でも英語の2〜4倍のトークンを消費することがあるため、言語別にトークン換算係数を把握しておくことが望ましい。
またハルシネーション(Hallucination)の一因として、トークン分割の粒度が意味境界とずれることが指摘されている。固有名詞や専門用語が不自然に分割されると、モデルが誤った文脈で語を再構成するリスクが高まる。語彙設計の段階でドメイン特化語彙を追加するか、プロンプトエンジニアリングで表記を統一するかを検討することが、精度向上への現実的なアプローチとなる。


トークン(Token)とは、LLM がテキストを処理する際の最小単位である。単語そのものではなく、単語の一部や記号、空白なども含まれ、モデルの語彙(ボキャブラリー)に基づいてテキストを分割した結果の断片を指す。

悪意ある入力でLLMの動作を意図しない方向に操作する攻撃手法。OWASP LLM Top 10で最重要リスクに分類される。

BPOとは、企業が特定の業務プロセスを外部の専門業者に委託するアウトソーシング形態のこと。AI活用による自動化と組み合わせたAIハイブリッドBPOが近年注目されている。


AIハイブリッドBPOとは?人とAIの最適な協働で実現する次世代アウトソーシング戦略
Outside the Loop とは、人間が成果の仕様だけを指定し、実装の詳細をすべて AI エージェントに委ねる協業モードであり、バイブコーディングとも呼ばれる。