ローカルLLMとは、クラウドAPIを介さず、自社のサーバーやPC上で大規模言語モデルを直接実行する運用形態のことである。
## なぜローカルで動かすのか ChatGPTやClaude APIを使えば手軽にLLMの能力を利用できる。それでもローカル実行を選ぶ理由は主に3つある。まず**データの外部送信を避けたい**ケース。
医療記録、法務文書、社内の機密情報など、クラウドAPIに送信すること自体がコンプライアンス上許されない場面は少なくない。次に**コスト構造の問題**。APIは従量課金が基本だが、大量の推論を日常的に回す場合、GPU 1枚を自前で持つ方が安くつくラインがある。
そして**レイテンシとオフライン要件**。工場の生産ラインや僻地の現場など、安定したインターネット接続を前提にできない環境では、ローカル実行が唯一の選択肢になる。## 実行に必要なもの 最低限必要なのはGPUとモデルの重みファイル、そして推論エンジンだ。
llama.cpp、vLLM、Ollamaといったツールが推論エンジンとしてよく使われている。特にOllamaは `ollama run llama3` のようなコマンド1つでモデルのダウンロードから起動まで完了するため、導入のハードルが大幅に下がった。モデルサイズとハードウェアの関係は単純で、パラメータ数が大きいほど多くのVRAMを要求する。
7〜8Bパラメータのモデルなら消費者向けGPU(RTX 4090など)でも動作するが、70B以上になるとA100やH100クラスが必要になる。量子化(4bit, 8bit)を適用すれば必要メモリを半分以下に圧縮できるが、精度とのトレードオフは避けられない。## クラウドAPIとの使い分け 「全部ローカルに移行する」というのは多くの場合現実的ではない。
ChatGPT や Claude Opusクラスの性能をローカルで再現するのは、2026年時点でもまだコスト的に厳しい。実務では、機密性の高い処理だけローカル、それ以外はAPIという**ハイブリッド構成**が落としどころになることが多い。逆に、特定タスクに特化したSLM(小規模言語モデル)をFine-tuningしてローカルで動かすと、汎用APIより高精度かつ低コストになるケースもある。
用途を絞ることがローカルLLMの費用対効果を最大化する鍵だ。


LLM(Large Language Model)とは、大量のテキストデータで事前学習された、数十億〜数兆のパラメータを持つニューラルネットワークモデルの総称であり、自然言語の理解・生成を高い精度で行う。

SLM(Small Language Model)とは、パラメータ数を数十億〜百億程度に抑えた言語モデルの総称で、LLMに比べ少ない計算資源で推論・Fine-tuningが可能なことを特徴とする。

RLHFとは人間のフィードバックを報酬として使う強化学習手法、RLVRとは検証可能な正解を報酬として使う強化学習手法であり、いずれもLLMの出力を人間の期待に沿うよう調整するために用いられる。


タイの医療機関がAIチャットボットで外国人患者の対応を自動化する方法
プロンプトエンジニアリングとは、LLM(大規模言語モデル)から望ましい出力を引き出すために、入力テキスト(プロンプト)の構造・表現・文脈を設計する技術である。