AIが生成した訓練用データ。実データの不足を補い、プライバシーを保護しながらモデルの学習・評価に活用される。
合成データ(Synthetic Data)とは、実データを直接使わず、AI やルールベースのアルゴリズムによって人工的に生成されたデータセットである。モデルの訓練・評価・蒸留に広く活用されている。
実データには「量が足りない」「偏りがある」「個人情報を含む」という三つの壁がある。たとえば医療分野では希少疾患の画像データが極端に少なく、金融分野では不正取引データが全体の 0.1% 未満ということも珍しくない。合成データはこれらのギャップを埋める実用的な手段だ。
知識蒸留との組み合わせが急速に広がっている。大規模な教師モデルに多様なプロンプトを与えて回答を生成し、その出力を生徒モデルの訓練データとする——Microsoft Phi シリーズの成功が示したパイプラインだ。
ファインチューニングの訓練データ作成にも使われる。社内文書を元に LLM で Q&A ペアを自動生成し、そのデータで RAG の回答品質を改善するアプローチは、筆者のプロジェクトでも実績がある。
合成データだけで訓練すると、モデルが自身の出力パターンを強化する「モデル崩壊」が起きうる。実データとの混合比率を管理し、定期的に人間が品質を検証する運用設計が欠かせない。


物理的な資産やプロセスのデジタル複製にAIを統合し、リアルタイム分析・予測・最適化を行うシステム。

ベースモデル(Foundation Model)とは、大規模なデータセットで事前学習(プリトレーニング)された汎用 AI モデルのことである。特定のタスクに特化しておらず、ファインチューニングやプロンプトエンジニアリングによって多様な用途に適応できる「土台」として機能する。

クラウドではなくデバイス上でAI推論を実行するアーキテクチャ。低レイテンシ、プライバシー保護、オフライン動作を実現する。



AIで社内研修・ナレッジトランスファーを効率化する方法
AIの基本概念・限界・リスクを理解し、業務で適切に活用するための知識とスキル。EU AI Actで組織への確保が義務化。