MLOpsとは、機械学習モデルの開発・学習・デプロイ・監視のライフサイクル全体を自動化・標準化し、本番環境で継続的にモデルを運用するためのプラクティスである。
Jupyter Notebookで精度の高いモデルを作れたとしても、それを本番環境で安定して動かし続けるのは全く別のスキルセットが必要になる。学習データの更新、モデルの再学習、バージョン管理、A/Bテスト、精度劣化の検知——これらを手作業で回すと、チームの規模に関わらず破綻する。
MLOpsはDevOpsの思想を機械学習に適用したものだが、ソフトウェアのデプロイとは異なる固有の課題がある。コードだけでなくデータとモデルの重みの3つを同時にバージョン管理する必要があること、モデルの性能がデータの分布変化(ドリフト)で時間とともに劣化すること、実験の再現性を担保する必要があることなどだ。
データパイプライン: 学習データの収集・前処理・バリデーションを自動化する。データの品質がモデルの品質を直接決める以上、ここが最も重要なレイヤーだ。
実験管理: MLflow、Weights & Biases、Cometなどで、ハイパーパラメータ・学習曲線・評価指標を記録し、実験の再現性を確保する。
モデルレジストリ: 学習済みモデルをバージョン付きで保管し、ステージング→本番への昇格フローを管理する。
サービング: モデルをAPIとして公開する。vLLM、TensorRT-LLM、Triton Inference Serverなどが推論エンジンとして使われる。
モニタリング: 推論のレイテンシ、エラー率に加え、データドリフト(入力データの分布変化)やモデルドリフト(精度の経時劣化)を監視する。閾値を超えたら自動で再学習をトリガーする仕組みも一般的だ。
LLMの台頭で「LLMOps」という派生概念も生まれている。プロンプトのバージョン管理、RAGパイプラインの評価、ガードレールの設定、推論コストの最適化など、従来のMLOpsにはなかった運用課題が加わった。ツールチェーンも LangSmith、Braintrust、Arize AI など LLM 特化のものが増えている。


LLM(Large Language Model)とは、大量のテキストデータで事前学習された、数十億〜数兆のパラメータを持つニューラルネットワークモデルの総称であり、自然言語の理解・生成を高い精度で行う。

MoE(Mixture of Experts)とは、モデル内部に複数の「エキスパート」サブネットワークを持ち、入力ごとにその一部だけを活性化させることで、パラメータ総数を増やしつつ推論コストを抑えるアーキテクチャである。

LoRA(Low-Rank Adaptation)とは、大規模言語モデルの重み行列に低ランクの差分行列を挿入し、その差分だけを学習させることでモデル全体の 0.1〜1% 程度のパラメータ追加でファインチューニングを実現する手法である。



AIエージェント導入後の効果測定方法|KPI設計から継続改善まで
SLM(Small Language Model)とは、パラメータ数を数十億〜百億程度に抑えた言語モデルの総称で、LLMに比べ少ない計算資源で推論・Fine-tuningが可能なことを特徴とする。