モデルのパラメータ精度を16bitから4bit等に下げてサイズを圧縮し、限られた計算資源での推論を可能にする最適化手法。
量子化(Quantization)とは、モデルの重みパラメータの数値精度を下げる(例: 32bit 浮動小数点 → 4bit 整数)ことで、モデルサイズとメモリ使用量を圧縮する最適化手法である。
写真の画質を落とすとファイルサイズが小さくなるのと似ている。パラメータ 1 つあたりの情報量は減るが、モデル全体としては意外なほど性能が維持される。70B パラメータのモデルを 4bit 量子化すれば、VRAM 消費は約 140GB から約 35GB に縮まり、高価な GPU クラスタなしでも推論が可能になる。
| 方式 | 特徴 |
|---|---|
| 訓練後量子化(PTQ) | 学習済みモデルをそのまま量子化。手軽だが精度低下が大きい場合がある |
| 量子化対応訓練(QAT) | 量子化を想定して訓練。PTQ より高精度だが訓練コストが必要 |
| GPTQ / AWQ / GGUF | LLM 向けに最適化された量子化フォーマット。ローカル LLM の配布形式として普及 |
QLoRA はこの量子化と LoRA を組み合わせた手法で、4bit に量子化した状態でファインチューニングを行える。
「大きいモデルを量子化する」方が「小さいモデルを高精度で使う」より性能が高いという研究結果が複数報告されている。エッジ AI 環境でモデルを選定する際は、モデルサイズと量子化ビット数の組み合わせで最適解を探ることになる。


PEFT(パラメータ効率型ファインチューニング)とは?AI モデルカスタマイズのコストを 90% 削減する技術
Sparse Model(スパースモデル)とは、推論時にモデルの全パラメータではなく一部のみを活性化させるニューラルネットワークアーキテクチャの総称である。代表例として MoE(Mixture of Experts)があり、パラメータ総数を増やしつつも推論コストを抑えるという、Dense Model とは異なるスケーリング戦略をとる。