CyberGym(サイバージム)

さいばーじむ

CyberGym(サイバージム)

CyberGymとは、AIモデルのサイバーセキュリティ能力を評価するベンチマークであり、実在するソフトウェアの脆弱性を発見・再現できるかを段階的に測定する。

なぜ AI セキュリティベンチマークが必要か

LLM の能力がコード生成から脆弱性の発見・悪用へと拡張されるにつれ、「このモデルはどの程度のセキュリティタスクを遂行できるのか」を客観的に測る尺度が求められるようになった。従来のコーディングベンチマーク(SWE-bench 等)はバグ修正やタスク完了を測定するが、攻撃者視点でのエクスプロイト構築能力は測れない。CyberGym はこのギャップを埋めるために設計されたベンチマークである。

評価の仕組み

CyberGym は実在するソフトウェアの既知の脆弱性(CVE)を題材に、AI モデルがどこまで自律的に攻撃を再現できるかを段階的にスコアリングする。単に「脆弱性を説明できるか」ではなく、実際に動作するエクスプロイトコードを生成し、対象環境でクラッシュや権限昇格を引き起こせるかまでを評価対象とする。

課題は難易度別に構成されており、バッファオーバーフローのような古典的な脆弱性から、複数の脆弱性を連鎖させる高度な攻撃シナリオまでカバーする。モデルには脆弱なソースコードと実行環境へのアクセスが与えられ、脆弱性の特定・攻撃コード生成・実行確認までを一貫して行う必要がある。

Mythos のスコアが示すもの

Project Glasswing の発表において、Anthropic は CyberGym での Claude Mythos Preview のスコアを公開した。Mythos は 83.1% を達成し、従来の Claude Opus 4.6(66.6%)を大きく上回った。この差は、汎用的な推論能力の延長線上にあるセキュリティ理解と、セキュリティ特化のトレーニングを受けたモデルの能力差を端的に示している。

ただし、ベンチマークスコアがそのまま実世界の防御能力に直結するわけではない。CyberGym の課題は既知の CVE を基にしているため、未知のゼロデイを発見する能力とは別の軸になる。Mythos が OpenBSD や FFmpeg で未知のバグを発見した実績は、CyberGym のスコアとは独立した能力の証左だ。

他のセキュリティベンチマークとの関係

AI のセキュリティ能力を測るベンチマークは CyberGym だけではない。Terminal-Bench 2.0 はターミナル操作を含むより実践的な攻撃シナリオを評価し、SWE-bench Prop はコードベース全体の理解と修正能力を測る。AIレッドチーミングの文脈では、これらのベンチマークを組み合わせてモデルの攻防両面の能力を総合的に評価する流れが生まれつつある。

OWASP が Web アプリケーションの脆弱性を分類・啓蒙してきたように、AI セキュリティベンチマークの標準化は、モデル開発者・セキュリティベンダー・規制当局が共通言語で能力とリスクを議論するための基盤になると期待されている。