モデルのパラメータ精度を16bitから4bit等に下げてサイズを圧縮し、限られた計算資源での推論を可能にする最適化手法。
## 量子化とは 量子化(Quantization)とは、モデルの重みパラメータの数値精度を下げる(例: 32bit 浮動小数点 → 4bit 整数)ことで、モデルサイズとメモリ使用量を圧縮する最適化手法である。### 直感的な理解 写真の画質を落とすとファイルサイズが小さくなるのと似ている。パラメータ 1 つあたりの情報量は減るが、モデル全体としては意外なほど性能が維持される。
70B パラメータのモデルを 4bit 量子化すれば、VRAM 消費は約 140GB から約 35GB に縮まり、高価な GPU クラスタなしでも推論が可能になる。### 量子化の種類 | 方式 | 特徴 | |------|------| | 訓練後量子化(PTQ) | 学習済みモデルをそのまま量子化。手軽だが精度低下が大きい場合がある | | 量子化対応訓練(QAT) | 量子化を想定して訓練。
PTQ より高精度だが訓練コストが必要 | | GPTQ / AWQ / GGUF | LLM 向けに最適化された量子化フォーマット。ローカル LLM の配布形式として普及 | QLoRA はこの量子化と LoRA を組み合わせた手法で、4bit に量子化した状態でファインチューニングを行える。### 実務での判断基準 「大きいモデルを量子化する」方が「小さいモデルを高精度で使う」より性能が高いという研究結果が複数報告されている。
エッジ AI 環境でモデルを選定する際は、モデルサイズと量子化ビット数の組み合わせで最適解を探ることになる。


QLoRA(Quantized LoRA)とは、LoRA に 4bit 量子化を組み合わせることで、コンシューマ向け GPU でも大規模言語モデルのファインチューニングを可能にした手法である。

Sparse Model(スパースモデル)とは、推論時にモデルの全パラメータではなく一部のみを活性化させるニューラルネットワークアーキテクチャの総称である。代表例として MoE(Mixture of Experts)があり、パラメータ総数を増やしつつも推論コストを抑えるという、Dense Model とは異なるスケーリング戦略をとる。

MoE(Mixture of Experts)とは、モデル内部に複数の「エキスパート」サブネットワークを持ち、入力ごとにその一部だけを活性化させることで、パラメータ総数を増やしつつ推論コストを抑えるアーキテクチャである。



PEFT(パラメータ効率型ファインチューニング)とは?AI モデルカスタマイズのコストを 90% 削減する技術
推論時スケーリングとは、モデルの推論フェーズで使う計算量を動的に増減させることで、難しい問題にはより多くの「思考ステップ」を費やし、簡単な問題には即答する手法である。