AIが生成した訓練用データ。実データの不足を補い、プライバシーを保護しながらモデルの学習・評価に活用される。
## 合成データとは 合成データ(Synthetic Data)とは、実データを直接使わず、AI やルールベースのアルゴリズムによって人工的に生成されたデータセットである。モデルの訓練・評価・蒸留に広く活用されている。### 合成データが必要になる場面 実データには「量が足りない」「偏りがある」「個人情報を含む」という三つの壁がある。
たとえば医療分野では希少疾患の画像データが極端に少なく、金融分野では不正取引データが全体の 0.1% 未満ということも珍しくない。合成データはこれらのギャップを埋める実用的な手段だ。### LLM 時代の合成データ 知識蒸留との組み合わせが急速に広がっている。
大規模な教師モデルに多様なプロンプトを与えて回答を生成し、その出力を生徒モデルの訓練データとする——Microsoft Phi シリーズの成功が示したパイプラインだ。ファインチューニングの訓練データ作成にも使われる。社内文書を元に LLM で Q&A ペアを自動生成し、そのデータで RAG の回答品質を改善するアプローチは、筆者のプロジェクトでも実績がある。
### 注意すべきリスク 合成データだけで訓練すると、モデルが自身の出力パターンを強化する「モデル崩壊」が起きうる。実データとの混合比率を管理し、定期的に人間が品質を検証する運用設計が欠かせない。


A2A(Agent-to-Agent Protocol)とは、異なる AI エージェント同士が能力の発見・タスクの委譲・状態の同期を行うための通信プロトコルであり、Google が 2025 年 4 月に公開した。

Agent Skills とは、AI エージェントに特定のタスクや専門知識を実行させるために定義された再利用可能な命令セットであり、エージェントの能力を拡張するモジュール単位として機能する。

Agentic AI とは、人間の逐一の指示なしに目標を解釈し、計画の立案・実行・検証を自律的に繰り返す AI システムの総称である。


タイの医療機関がAIチャットボットで外国人患者の対応を自動化する方法
Agentic RAG とは、LLM がエージェントとして検索クエリの生成・結果の評価・再検索の判断を自律的に繰り返すことで、単純な一問一答型 RAG では得られない回答精度を実現するアーキテクチャである。