AIシステムの脆弱性を攻撃者の視点で体系的にテストし、安全性リスクを事前に特定する評価手法。
AI レッドチーミング(AI Red Teaming)とは、AI システムの脆弱性を攻撃者の視点から体系的にテストし、安全性リスクを本番運用前に特定する評価手法である。軍事・セキュリティ分野の「レッドチーム演習」を AI に応用した考え方だ。
AI レッドチーミングが検証するリスクは、従来のソフトウェアセキュリティより幅広い。
UK の AI Safety Institute が実施した大規模評価では 62,000 件以上の脆弱性が報告されており、AI システムの攻撃面の広さを示している。
専門チームがプロンプトの改変、多言語での攻撃、マルチターンの誘導などを組み合わせて網羅的に検証する。自動化ツール(Garak、PyRIT など)で大量のテストケースを生成し、人間の専門家がクリエイティブな攻撃シナリオを補完するハイブリッド体制が効果的とされている。
EU AI Act では高リスク AI システムに対して適切なテストが求められており、AI レッドチーミングはその実施手段として注目度が上がっている。


物理的な資産やプロセスのデジタル複製にAIを統合し、リアルタイム分析・予測・最適化を行うシステム。