合成データ(Synthetic Data)
ゴウセイデータ

AIが生成した訓練用データ。実データの不足を補い、プライバシーを保護しながらモデルの学習・評価に活用される。
合成データとは
合成データ(Synthetic Data)とは、実データを直接使わず、AI やルールベースのアルゴリズムによって人工的に生成されたデータセットである。モデルの訓練・評価・蒸留に広く活用されている。
合成データが必要になる場面
実データには「量が足りない」「偏りがある」「個人情報を含む」という三つの壁がある。たとえば医療分野では希少疾患の画像データが極端に少なく、金融分野では不正取引データが全体の 0.1% 未満ということも珍しくない。合成データはこれらのギャップを埋める実用的な手段だ。
LLM 時代の合成データ
知識蒸留との組み合わせが急速に広がっている。大規模な教師モデルに多様なプロンプトを与えて回答を生成し、その出力を生徒モデルの訓練データとする——Microsoft Phi シリーズの成功が示したパイプラインだ。
ファインチューニングの訓練データ作成にも使われる。社内文書を元に LLM で Q&A ペアを自動生成し、そのデータで RAG の回答品質を改善するアプローチは、筆者のプロジェクトでも実績がある。
注意すべきリスク
合成データだけで訓練すると、モデルが自身の出力パターンを強化する「モデル崩壊」が起きうる。実データとの混合比率を管理し、定期的に人間が品質を検証する運用設計が欠かせない。
関連用語

AI ROI(AI投資対効果)
AI ROIとは、AI導入・運用に投じたコストに対して得られた業務効率化・収益改善などの効果を定量的に測定する指標のこと。

AIオブザーバビリティ(AI Observability)
本番稼働中のAIシステムの入出力・レイテンシ・コスト・品質を継続的に監視・可視化する運用プラクティス。ハルシネーションやドリフトの早期検出に不可欠。

BPO(ビジネス・プロセス・アウトソーシング)
BPOとは、企業が特定の業務プロセスを外部の専門業者に委託するアウトソーシング形態のこと。AI活用による自動化と組み合わせたAIハイブリッドBPOが近年注目されている。

ERP(エンタープライズ・リソース・プランニング)
ERP(エンタープライズ・リソース・プランニング)とは、財務・購買・製造・人事などの基幹業務データを一元管理し、経営意思決定を支援する統合型業務管理システムのこと。