LoRA(Low-Rank Adaptation)とは、大規模言語モデルの重み行列に低ランクの差分行列を挿入し、その差分だけを学習させることでモデル全体の 0.1〜1% 程度のパラメータ追加でファインチューニングを実現する手法である。
LoRA は Transformer の各層にある重み行列 W に対し、低ランク行列の積 A×B を加算する構造をとる。元の重み W は凍結したまま、追加した A と B だけを学習するため、学習対象のパラメータ数はモデル全体の 0.1〜1% 程度に抑えられる。ランク r は 4〜64 程度で設定するのが一般的で、r が小さいほどパラメータ数は減るが表現力とのトレードオフになる。
実装面では Hugging Face の PEFT ライブラリや Unsloth が広く使われており、既存の学習パイプラインに数行のコード追加で組み込める。学習済みの LoRA アダプタはモデル本体とは別ファイル(数十 MB 程度)として保存でき、タスクごとにアダプタを差し替えることで 1 つのベースモデルを複数用途に使い回せる。GPU メモリに余裕がある場合はアダプタをベースモデルにマージして推論速度を維持する運用も可能。
筆者の環境では r=16 が多くのタスクで精度と効率のバランスが良く、最初の設定として採用することが多い。ただし、モデルが元々持っていない能力——たとえば未対応言語の追加——を LoRA だけで獲得するのは難しく、その場合は継続事前学習との併用が必要になる。


QLoRA(Quantized LoRA)とは、LoRA に 4bit 量子化を組み合わせることで、コンシューマ向け GPU でも大規模言語モデルのファインチューニングを可能にした手法である。

LLM(Large Language Model)とは、大量のテキストデータで事前学習された、数十億〜数兆のパラメータを持つニューラルネットワークモデルの総称であり、自然言語の理解・生成を高い精度で行う。

RAG(Retrieval-Augmented Generation)とは、外部の知識ソースから関連情報を検索し、その結果を LLM の入力に付加することで、回答の正確性と最新性を向上させる手法である。


AIハイブリッドBPOとは?人とAIの最適な協働で実現する次世代アウトソーシング戦略
ローカルLLMとは、クラウドAPIを介さず、自社のサーバーやPC上で大規模言語モデルを直接実行する運用形態のことである。