量子化(Quantization)

リョウシカ

量子化(Quantization)

モデルのパラメータ精度を16bitから4bit等に下げてサイズを圧縮し、限られた計算資源での推論を可能にする最適化手法。

量子化とは

量子化(Quantization)とは、モデルの重みパラメータの数値精度を下げる(例: 32bit 浮動小数点 → 4bit 整数)ことで、モデルサイズとメモリ使用量を圧縮する最適化手法である。

直感的な理解

写真の画質を落とすとファイルサイズが小さくなるのと似ている。パラメータ 1 つあたりの情報量は減るが、モデル全体としては意外なほど性能が維持される。70B パラメータのモデルを 4bit 量子化すれば、VRAM 消費は約 140GB から約 35GB に縮まり、高価な GPU クラスタなしでも推論が可能になる。

量子化の種類

方式特徴
訓練後量子化(PTQ)学習済みモデルをそのまま量子化。手軽だが精度低下が大きい場合がある
量子化対応訓練(QAT)量子化を想定して訓練。PTQ より高精度だが訓練コストが必要
GPTQ / AWQ / GGUFLLM 向けに最適化された量子化フォーマット。ローカル LLM の配布形式として普及

QLoRA はこの量子化と LoRA を組み合わせた手法で、4bit に量子化した状態でファインチューニングを行える。

実務での判断基準

「大きいモデルを量子化する」方が「小さいモデルを高精度で使う」より性能が高いという研究結果が複数報告されている。エッジ AI 環境でモデルを選定する際は、モデルサイズと量子化ビット数の組み合わせで最適解を探ることになる。