CyberGym(サイバージム)
さいばーじむ

CyberGymとは、AIモデルのサイバーセキュリティ能力を評価するベンチマークであり、実在するソフトウェアの脆弱性を発見・再現できるかを段階的に測定する。
なぜ AI セキュリティベンチマークが必要か
LLM の能力がコード生成から脆弱性の発見・悪用へと拡張されるにつれ、「このモデルはどの程度のセキュリティタスクを遂行できるのか」を客観的に測る尺度が求められるようになった。従来のコーディングベンチマーク(SWE-bench 等)はバグ修正やタスク完了を測定するが、攻撃者視点でのエクスプロイト構築能力は測れない。CyberGym はこのギャップを埋めるために設計されたベンチマークである。
評価の仕組み
CyberGym は実在するソフトウェアの既知の脆弱性(CVE)を題材に、AI モデルがどこまで自律的に攻撃を再現できるかを段階的にスコアリングする。単に「脆弱性を説明できるか」ではなく、実際に動作するエクスプロイトコードを生成し、対象環境でクラッシュや権限昇格を引き起こせるかまでを評価対象とする。
課題は難易度別に構成されており、バッファオーバーフローのような古典的な脆弱性から、複数の脆弱性を連鎖させる高度な攻撃シナリオまでカバーする。モデルには脆弱なソースコードと実行環境へのアクセスが与えられ、脆弱性の特定・攻撃コード生成・実行確認までを一貫して行う必要がある。
Mythos のスコアが示すもの
Project Glasswing の発表において、Anthropic は CyberGym での Claude Mythos Preview のスコアを公開した。Mythos は 83.1% を達成し、従来の Claude Opus 4.6(66.6%)を大きく上回った。この差は、汎用的な推論能力の延長線上にあるセキュリティ理解と、セキュリティ特化のトレーニングを受けたモデルの能力差を端的に示している。
ただし、ベンチマークスコアがそのまま実世界の防御能力に直結するわけではない。CyberGym の課題は既知の CVE を基にしているため、未知のゼロデイを発見する能力とは別の軸になる。Mythos が OpenBSD や FFmpeg で未知のバグを発見した実績は、CyberGym のスコアとは独立した能力の証左だ。
他のセキュリティベンチマークとの関係
AI のセキュリティ能力を測るベンチマークは CyberGym だけではない。Terminal-Bench 2.0 はターミナル操作を含むより実践的な攻撃シナリオを評価し、SWE-bench Prop はコードベース全体の理解と修正能力を測る。AIレッドチーミングの文脈では、これらのベンチマークを組み合わせてモデルの攻防両面の能力を総合的に評価する流れが生まれつつある。
OWASP が Web アプリケーションの脆弱性を分類・啓蒙してきたように、AI セキュリティベンチマークの標準化は、モデル開発者・セキュリティベンダー・規制当局が共通言語で能力とリスクを議論するための基盤になると期待されている。
関連用語

AI ROI(AI投資対効果)
AI ROIとは、AI導入・運用に投じたコストに対して得られた業務効率化・収益改善などの効果を定量的に測定する指標のこと。

AIオブザーバビリティ(AI Observability)
本番稼働中のAIシステムの入出力・レイテンシ・コスト・品質を継続的に監視・可視化する運用プラクティス。ハルシネーションやドリフトの早期検出に不可欠。

BPO(ビジネス・プロセス・アウトソーシング)
BPOとは、企業が特定の業務プロセスを外部の専門業者に委託するアウトソーシング形態のこと。AI活用による自動化と組み合わせたAIハイブリッドBPOが近年注目されている。

ERP(エンタープライズ・リソース・プランニング)
ERP(エンタープライズ・リソース・プランニング)とは、財務・購買・製造・人事などの基幹業務データを一元管理し、経営意思決定を支援する統合型業務管理システムのこと。