トークン(Token)とは、LLM がテキストを処理する際の最小単位である。単語そのものではなく、単語の一部や記号、空白なども含まれ、モデルの語彙(ボキャブラリー)に基づいてテキストを分割した結果の断片を指す。
## 単語とは違う 「トークン」と聞くと単語を思い浮かべがちだが、実際にはもう少し細かい。英語の "unbelievable" は "un", "believ", "able" の 3 トークンに分割されることがある。日本語の場合はさらに事情が複雑で、ひらがな 1 文字が 1 トークンになることもあれば、漢字 1 文字で 2〜3 トークンを消費することもある。
この分割処理をトークナイゼーションと呼び、モデルごとに異なるアルゴリズム(BPE、SentencePiece など)を使う。同じ文章でもモデルによってトークン数が変わるのはこのためだ。## なぜトークン数が重要か LLM のコストと性能は、ほぼすべてトークン数で決まる。
API 利用料金は入力・出力のトークン数に応じた従量課金が一般的であり、コンテキストウィンドウ(モデルが一度に扱えるテキスト量)もトークン数で定義される。推論速度にも直結する。Dense Model では全パラメータが各トークンの処理に関与するため、トークン数が増えれば比例して計算量が増える。
長文の要約タスクで入力を圧縮する工夫が求められるのはこの制約による。## 実務での見積もり 英語では「1 トークン ≒ 4 文字 ≒ 0.75 単語」がよく使われる目安だ。日本語はトークン効率が低く、同じ意味内容でも英語の 1.5〜2 倍のトークンを消費する傾向がある。
多言語対応のシステムを設計する際には、この差をコスト見積もりに織り込む必要がある。


SLM(Small Language Model)とは、パラメータ数を数十億〜百億程度に抑えた言語モデルの総称で、LLMに比べ少ない計算資源で推論・Fine-tuningが可能なことを特徴とする。

LLM(Large Language Model)とは、大量のテキストデータで事前学習された、数十億〜数兆のパラメータを持つニューラルネットワークモデルの総称であり、自然言語の理解・生成を高い精度で行う。

チャンクサイズとは、RAG パイプラインにおいて文書をベクトルストアに格納する際の分割単位の大きさ(トークン数や文字数)を指す。検索精度と回答品質に直結する重要なパラメータである。



AI チャットの「見えない攻撃経路」を塞ぐ — DB 経由プロンプトインジェクション対策の実装ガイド
AI チャットボットとは、自然言語処理(NLP)や LLM を活用し、人間との対話を自動で行うソフトウェアである。従来のルールベースのチャットボットとは異なり、事前に定義されていない質問にも文脈を理解して応答できる点が特徴である。