GPU(Graphics Processing Unit)とは、大量の並列演算を高速に処理する半導体チップである。もともと画像描画用に設計されたが、その並列計算能力が AI の学習・推論に適しており、現在では LLM の訓練やファインチューニングに不可欠なハードウェアとなっている。
CPU は複雑な逐次処理に最適化されており、コア数は数十個程度。対して GPU は単純な演算を数千〜数万のコアで同時に実行できる。ニューラルネットワークの学習は本質的に行列演算の繰り返しであり、この処理パターンが GPU の並列アーキテクチャと合致する。
たとえば 70B パラメータの Dense Model を学習する場合、各パラメータの勾配計算を並列に行う必要がある。CPU で逐次処理すれば数か月かかる計算が、GPU クラスタなら数日〜数週間で完了する。
AI 文脈で GPU を語るとき、演算性能と同じくらい重要なのが VRAM(Video RAM)だ。モデルの重みとアクティベーションをすべて VRAM に載せる必要があり、VRAM 容量がモデルサイズの実質的な上限を決める。
NVIDIA A100(80GB)1 枚で載るのは概ね 40B パラメータ程度(FP16 の場合)。70B の Dense Model を動かすには最低 2 枚、学習まで行うなら 8 枚以上が必要になる。LoRA や QLoRA が注目されるのは、VRAM 消費を劇的に削減できるからだ。
GPU は高価であり、NVIDIA H100 1 枚で数百万円する。そのため多くの企業はクラウド GPU(AWS, GCP, Azure)をオンデマンドで利用する。一方、継続的に大量の推論を行う場合はオンプレミスの方がコスト効率が良くなることもあり、ローカル LLM の運用ではこの判断が重要になる。


ローカル LLM / SLM 導入比較 — クラウド API に依存しない AI 活用
Google が開発した LLM 向けメモリ圧縮技術。量子化によりメモリ消費量を最大 1/6 に削減し、推論速度を最大 8 倍に高速化する。