合成データ(Synthetic Data)

ゴウセイデータ

合成データ(Synthetic Data)

AIが生成した訓練用データ。実データの不足を補い、プライバシーを保護しながらモデルの学習・評価に活用される。

合成データとは

合成データ(Synthetic Data)とは、実データを直接使わず、AI やルールベースのアルゴリズムによって人工的に生成されたデータセットである。モデルの訓練・評価・蒸留に広く活用されている。

合成データが必要になる場面

実データには「量が足りない」「偏りがある」「個人情報を含む」という三つの壁がある。たとえば医療分野では希少疾患の画像データが極端に少なく、金融分野では不正取引データが全体の 0.1% 未満ということも珍しくない。合成データはこれらのギャップを埋める実用的な手段だ。

LLM 時代の合成データ

知識蒸留との組み合わせが急速に広がっている。大規模な教師モデルに多様なプロンプトを与えて回答を生成し、その出力を生徒モデルの訓練データとする——Microsoft Phi シリーズの成功が示したパイプラインだ。

ファインチューニングの訓練データ作成にも使われる。社内文書を元に LLM で Q&A ペアを自動生成し、そのデータで RAG の回答品質を改善するアプローチは、筆者のプロジェクトでも実績がある。

注意すべきリスク

合成データだけで訓練すると、モデルが自身の出力パターンを強化する「モデル崩壊」が起きうる。実データとの混合比率を管理し、定期的に人間が品質を検証する運用設計が欠かせない。