GPU(Graphics Processing Unit)とは、大量の並列演算を高速に処理する半導体チップである。もともと画像描画用に設計されたが、その並列計算能力が AI の学習・推論に適しており、現在では LLM の訓練やファインチューニングに不可欠なハードウェアとなっている。
## なぜ CPU ではなく GPU なのか CPU は複雑な逐次処理に最適化されており、コア数は数十個程度。対して GPU は単純な演算を数千〜数万のコアで同時に実行できる。ニューラルネットワークの学習は本質的に行列演算の繰り返しであり、この処理パターンが GPU の並列アーキテクチャと合致する。
たとえば 70B パラメータの Dense Model を学習する場合、各パラメータの勾配計算を並列に行う必要がある。CPU で逐次処理すれば数か月かかる計算が、GPU クラスタなら数日〜数週間で完了する。## VRAM という制約 AI 文脈で GPU を語るとき、演算性能と同じくらい重要なのが VRAM(Video RAM)だ。
モデルの重みとアクティベーションをすべて VRAM に載せる必要があり、VRAM 容量がモデルサイズの実質的な上限を決める。NVIDIA A100(80GB)1 枚で載るのは概ね 40B パラメータ程度(FP16 の場合)。70B の Dense Model を動かすには最低 2 枚、学習まで行うなら 8 枚以上が必要になる。
LoRA や QLoRA が注目されるのは、VRAM 消費を劇的に削減できるからだ。## クラウド vs オンプレミス GPU は高価であり、NVIDIA H100 1 枚で数百万円する。そのため多くの企業はクラウド GPU(AWS, GCP, Azure)をオンデマンドで利用する。
一方、継続的に大量の推論を行う場合はオンプレミスの方がコスト効率が良くなることもあり、ローカル LLM の運用ではこの判断が重要になる。


QLoRA(Quantized LoRA)とは、LoRA に 4bit 量子化を組み合わせることで、コンシューマ向け GPU でも大規模言語モデルのファインチューニングを可能にした手法である。

AI チャットボットとは、自然言語処理(NLP)や LLM を活用し、人間との対話を自動で行うソフトウェアである。従来のルールベースのチャットボットとは異なり、事前に定義されていない質問にも文脈を理解して応答できる点が特徴である。

ファインチューニング(Fine-Tuning)とは、事前学習済みの機械学習モデルに追加の学習データを与え、特定のタスクやドメインに適応させるプロセスを指す。
