量子化(Quantization)
リョウシカ

モデルのパラメータ精度を16bitから4bit等に下げてサイズを圧縮し、限られた計算資源での推論を可能にする最適化手法。
量子化とは
量子化(Quantization)とは、モデルの重みパラメータの数値精度を下げる(例: 32bit 浮動小数点 → 4bit 整数)ことで、モデルサイズとメモリ使用量を圧縮する最適化手法である。
直感的な理解
写真の画質を落とすとファイルサイズが小さくなるのと似ている。パラメータ 1 つあたりの情報量は減るが、モデル全体としては意外なほど性能が維持される。70B パラメータのモデルを 4bit 量子化すれば、VRAM 消費は約 140GB から約 35GB に縮まり、高価な GPU クラスタなしでも推論が可能になる。
量子化の種類
| 方式 | 特徴 |
|---|---|
| 訓練後量子化(PTQ) | 学習済みモデルをそのまま量子化。手軽だが精度低下が大きい場合がある |
| 量子化対応訓練(QAT) | 量子化を想定して訓練。PTQ より高精度だが訓練コストが必要 |
| GPTQ / AWQ / GGUF | LLM 向けに最適化された量子化フォーマット。ローカル LLM の配布形式として普及 |
QLoRA はこの量子化と LoRA を組み合わせた手法で、4bit に量子化した状態でファインチューニングを行える。
実務での判断基準
「大きいモデルを量子化する」方が「小さいモデルを高精度で使う」より性能が高いという研究結果が複数報告されている。エッジ AI 環境でモデルを選定する際は、モデルサイズと量子化ビット数の組み合わせで最適解を探ることになる。
関連用語

AI ROI(AI投資対効果)
AI ROIとは、AI導入・運用に投じたコストに対して得られた業務効率化・収益改善などの効果を定量的に測定する指標のこと。

AIオブザーバビリティ(AI Observability)
本番稼働中のAIシステムの入出力・レイテンシ・コスト・品質を継続的に監視・可視化する運用プラクティス。ハルシネーションやドリフトの早期検出に不可欠。

BPO(ビジネス・プロセス・アウトソーシング)
BPOとは、企業が特定の業務プロセスを外部の専門業者に委託するアウトソーシング形態のこと。AI活用による自動化と組み合わせたAIハイブリッドBPOが近年注目されている。

ERP(エンタープライズ・リソース・プランニング)
ERP(エンタープライズ・リソース・プランニング)とは、財務・購買・製造・人事などの基幹業務データを一元管理し、経営意思決定を支援する統合型業務管理システムのこと。