GPU（Graphics Processing Unit）とは？図解で学ぶAI・DX・セキュリティ用語集

GPU（Graphics Processing Unit）とは、大量の並列演算を高速に処理する半導体チップである。もともと画像描画用に設計されたが、その並列計算能力が AI の学習・推論に適しており、現在では LLM の訓練やファインチューニングに不可欠なハードウェアとなっている。

なぜ CPU ではなく GPU なのか

CPU は複雑な逐次処理に最適化されており、コア数は数十個程度。対して GPU は単純な演算を数千〜数万のコアで同時に実行できる。ニューラルネットワークの学習は本質的に行列演算の繰り返しであり、この処理パターンが GPU の並列アーキテクチャと合致する。

たとえば 70B パラメータの Dense Model を学習する場合、各パラメータの勾配計算を並列に行う必要がある。CPU で逐次処理すれば数か月かかる計算が、GPU クラスタなら数日〜数週間で完了する。

VRAM という制約

AI 文脈で GPU を語るとき、演算性能と同じくらい重要なのが VRAM（Video RAM）だ。モデルの重みとアクティベーションをすべて VRAM に載せる必要があり、VRAM 容量がモデルサイズの実質的な上限を決める。

NVIDIA A100（80GB）1 枚で載るのは概ね 40B パラメータ程度（FP16 の場合）。70B の Dense Model を動かすには最低 2 枚、学習まで行うなら 8 枚以上が必要になる。LoRA や QLoRA が注目されるのは、VRAM 消費を劇的に削減できるからだ。

クラウド vs オンプレミス

GPU は高価であり、NVIDIA H100 1 枚で数百万円する。そのため多くの企業はクラウド GPU（AWS, GCP, Azure）をオンデマンドで利用する。一方、継続的に大量の推論を行う場合はオンプレミスの方がコスト効率が良くなることもあり、ローカル LLM の運用ではこの判断が重要になる。

GPU（Graphics Processing Unit）

なぜ CPU ではなく GPU なのか

VRAM という制約

クラウド vs オンプレミス

関連する用語

AIデジタルツイン（AI Digital Twin）

QLoRA

エッジAI（Edge AI）

Let's discuss your needs

TurboQuant

ベースモデル（Foundation Model）