量子化（Quantization）（リョウシカ）とは？

量子化（Quantization）

リョウシカ

更新日:2026年3月25日作成日:2026年3月25日

モデルのパラメータ精度を16bitから4bit等に下げてサイズを圧縮し、限られた計算資源での推論を可能にする最適化手法。

量子化とは

量子化（Quantization）とは、モデルの重みパラメータの数値精度を下げる（例: 32bit 浮動小数点 → 4bit 整数）ことで、モデルサイズとメモリ使用量を圧縮する最適化手法である。

直感的な理解

写真の画質を落とすとファイルサイズが小さくなるのと似ている。パラメータ 1 つあたりの情報量は減るが、モデル全体としては意外なほど性能が維持される。70B パラメータのモデルを 4bit 量子化すれば、VRAM 消費は約 140GB から約 35GB に縮まり、高価な GPU クラスタなしでも推論が可能になる。

量子化の種類

方式	特徴
訓練後量子化（PTQ）	学習済みモデルをそのまま量子化。手軽だが精度低下が大きい場合がある
量子化対応訓練（QAT）	量子化を想定して訓練。PTQ より高精度だが訓練コストが必要
GPTQ / AWQ / GGUF	LLM 向けに最適化された量子化フォーマット。ローカル LLM の配布形式として普及

QLoRA はこの量子化と LoRA を組み合わせた手法で、4bit に量子化した状態でファインチューニングを行える。