QLoRA(Quantized LoRA)とは、LoRA に 4bit 量子化を組み合わせることで、コンシューマ向け GPU でも大規模言語モデルのファインチューニングを可能にした手法である。
2023 年に発表された QLoRA は、「GPU が足りない」という現場の切実な声に対する直接的な回答だった。核心はシンプルで、ベースモデルの重みを 4bit に量子化して GPU メモリの消費を劇的に減らし、その上で LoRA アダプタだけを 16bit で学習させる。つまり「読み込みは軽く、学習は精密に」という二段構えの設計になっている。
数字で言うと、65B パラメータのモデルをフル精度で載せるには A100 80GB が複数枚必要だが、QLoRA なら 1 枚に収まる。7B モデルに至っては RTX 3090(24GB)や RTX 4090 でも学習が回る。クラウドで GPU インスタンスを借りる費用も、フル FT の 1/10 以下に抑えられるケースが多い。
ただし注意点もある。4bit 量子化による精度劣化はゼロではない。筆者が試した限りでは、単純な分類タスクや要約タスクではフル精度 LoRA との差がほぼ出なかったが、数学的推論や長文の論理展開が求められるタスクでは 1〜3% 程度のスコア低下が見られた。
「とりあえず QLoRA で試して、精度が足りなければフル精度 LoRA に切り替える」という順序が実務では合理的だと感じている。


LoRA(Low-Rank Adaptation)とは、大規模言語モデルの重み行列に低ランクの差分行列を挿入し、その差分だけを学習させることでモデル全体の 0.1〜1% 程度のパラメータ追加でファインチューニングを実現する手法である。

SLM(Small Language Model)とは、パラメータ数を数十億〜百億程度に抑えた言語モデルの総称で、LLMに比べ少ない計算資源で推論・Fine-tuningが可能なことを特徴とする。

RLHFとは人間のフィードバックを報酬として使う強化学習手法、RLVRとは検証可能な正解を報酬として使う強化学習手法であり、いずれもLLMの出力を人間の期待に沿うよう調整するために用いられる。


GPU(Graphics Processing Unit)とは、大量の並列演算を高速に処理する半導体チップである。もともと画像描画用に設計されたが、その並列計算能力が AI の学習・推論に適しており、現在では LLM の訓練やファインチューニングに不可欠なハードウェアとなっている。