QLoRA(Quantized LoRA)とは、LoRA に 4bit 量子化を組み合わせることで、コンシューマ向け GPU でも大規模言語モデルのファインチューニングを可能にした手法である。
2023 年に発表された QLoRA は、「GPU が足りない」という現場の切実な声に対する直接的な回答だった。核心はシンプルで、ベースモデルの重みを 4bit に量子化して GPU メモリの消費を劇的に減らし、その上で LoRA アダプタだけを 16bit で学習させる。つまり「読み込みは軽く、学習は精密に」という二段構えの設計になっている。
数字で言うと、65B パラメータのモデルをフル精度で載せるには A100 80GB が複数枚必要だが、QLoRA なら 1 枚に収まる。7B モデルに至っては RTX 3090(24GB)や RTX 4090 でも学習が回る。クラウドで GPU インスタンスを借りる費用も、フル FT の 1/10 以下に抑えられるケースが多い。
ただし注意点もある。4bit 量子化による精度劣化はゼロではない。筆者が試した限りでは、単純な分類タスクや要約タスクではフル精度 LoRA との差がほぼ出なかったが、数学的推論や長文の論理展開が求められるタスクでは 1〜3% 程度のスコア低下が見られた。
「とりあえず QLoRA で試して、精度が足りなければフル精度 LoRA に切り替える」という順序が実務では合理的だと感じている。


A2A(Agent-to-Agent Protocol)とは、異なる AI エージェント同士が能力の発見・タスクの委譲・状態の同期を行うための通信プロトコルであり、Google が 2025 年 4 月に公開した。

Agent Skills とは、AI エージェントに特定のタスクや専門知識を実行させるために定義された再利用可能な命令セットであり、エージェントの能力を拡張するモジュール単位として機能する。

Agentic AI とは、人間の逐一の指示なしに目標を解釈し、計画の立案・実行・検証を自律的に繰り返す AI システムの総称である。
