LoRA(Low-Rank Adaptation)とは、大規模言語モデルの重み行列に低ランクの差分行列を挿入し、その差分だけを学習させることでモデル全体の 0.1〜1% 程度のパラメータ追加でファインチューニングを実現する手法である。
LoRA は Transformer の各層にある重み行列 W に対し、低ランク行列の積 A×B を加算する構造をとる。元の重み W は凍結したまま、追加した A と B だけを学習するため、学習対象のパラメータ数はモデル全体の 0.1〜1% 程度に抑えられる。ランク r は 4〜64 程度で設定するのが一般的で、r が小さいほどパラメータ数は減るが表現力とのトレードオフになる。
実装面では Hugging Face の PEFT ライブラリや Unsloth が広く使われており、既存の学習パイプラインに数行のコード追加で組み込める。学習済みの LoRA アダプタはモデル本体とは別ファイル(数十 MB 程度)として保存でき、タスクごとにアダプタを差し替えることで 1 つのベースモデルを複数用途に使い回せる。GPU メモリに余裕がある場合はアダプタをベースモデルにマージして推論速度を維持する運用も可能。
筆者の環境では r=16 が多くのタスクで精度と効率のバランスが良く、最初の設定として採用することが多い。ただし、モデルが元々持っていない能力——たとえば未対応言語の追加——を LoRA だけで獲得するのは難しく、その場合は継続事前学習との併用が必要になる。


QLoRA(Quantized LoRA)とは、LoRA に 4bit 量子化を組み合わせることで、コンシューマ向け GPU でも大規模言語モデルのファインチューニングを可能にした手法である。

SLM(Small Language Model)とは、パラメータ数を数十億〜百億程度に抑えた言語モデルの総称で、LLMに比べ少ない計算資源で推論・Fine-tuningが可能なことを特徴とする。

LLM(Large Language Model)とは、大量のテキストデータで事前学習された、数十億〜数兆のパラメータを持つニューラルネットワークモデルの総称であり、自然言語の理解・生成を高い精度で行う。


ローカル LLM / SLM 導入比較 — クラウド API に依存しない AI 活用
RLHFとは人間のフィードバックを報酬として使う強化学習手法、RLVRとは検証可能な正解を報酬として使う強化学習手法であり、いずれもLLMの出力を人間の期待に沿うよう調整するために用いられる。