QLoRA

QLoRA

QLoRA(Quantized LoRA)とは、LoRA に 4bit 量子化を組み合わせることで、コンシューマ向け GPU でも大規模言語モデルのファインチューニングを可能にした手法である。

2023 年に発表された QLoRA は、「GPU が足りない」という現場の切実な声に対する直接的な回答だった。

核心はシンプルで、ベースモデルの重みを 4bit に量子化して GPU メモリの消費を劇的に減らし、その上で LoRA アダプタだけを 16bit で学習させる。つまり「読み込みは軽く、学習は精密に」という二段構えの設計になっている。

数字で言うと、65B パラメータのモデルをフル精度で載せるには A100 80GB が複数枚必要だが、QLoRA なら 1 枚に収まる。7B モデルに至っては RTX 3090(24GB)や RTX 4090 でも学習が回る。クラウドで GPU インスタンスを借りる費用も、フル FT の 1/10 以下に抑えられるケースが多い。

ただし注意点もある。4bit 量子化による精度劣化はゼロではない。筆者が試した限りでは、単純な分類タスクや要約タスクではフル精度 LoRA との差がほぼ出なかったが、数学的推論や長文の論理展開が求められるタスクでは 1〜3% 程度のスコア低下が見られた。「とりあえず QLoRA で試して、精度が足りなければフル精度 LoRA に切り替える」という順序が実務では合理的だと感じている。