CyberGymとは、AIモデルのサイバーセキュリティ能力を評価するベンチマークであり、実在するソフトウェアの脆弱性を発見・再現できるかを段階的に測定する。
LLM の能力がコード生成から脆弱性の発見・悪用へと拡張されるにつれ、「このモデルはどの程度のセキュリティタスクを遂行できるのか」を客観的に測る尺度が求められるようになった。従来のコーディングベンチマーク(SWE-bench 等)はバグ修正やタスク完了を測定するが、攻撃者視点でのエクスプロイト構築能力は測れない。CyberGym はこのギャップを埋めるために設計されたベンチマークである。
CyberGym は実在するソフトウェアの既知の脆弱性(CVE)を題材に、AI モデルがどこまで自律的に攻撃を再現できるかを段階的にスコアリングする。単に「脆弱性を説明できるか」ではなく、実際に動作するエクスプロイトコードを生成し、対象環境でクラッシュや権限昇格を引き起こせるかまでを評価対象とする。
課題は難易度別に構成されており、バッファオーバーフローのような古典的な脆弱性から、複数の脆弱性を連鎖させる高度な攻撃シナリオまでカバーする。モデルには脆弱なソースコードと実行環境へのアクセスが与えられ、脆弱性の特定・攻撃コード生成・実行確認までを一貫して行う必要がある。
Project Glasswing の発表において、Anthropic は CyberGym での Claude Mythos Preview のスコアを公開した。Mythos は 83.1% を達成し、従来の Claude Opus 4.6(66.6%)を大きく上回った。この差は、汎用的な推論能力の延長線上にあるセキュリティ理解と、セキュリティ特化のトレーニングを受けたモデルの能力差を端的に示している。
ただし、ベンチマークスコアがそのまま実世界の防御能力に直結するわけではない。CyberGym の課題は既知の CVE を基にしているため、未知のゼロデイを発見する能力とは別の軸になる。Mythos が OpenBSD や FFmpeg で未知のバグを発見した実績は、CyberGym のスコアとは独立した能力の証左だ。
AI のセキュリティ能力を測るベンチマークは CyberGym だけではない。Terminal-Bench 2.0 はターミナル操作を含むより実践的な攻撃シナリオを評価し、SWE-bench Prop はコードベース全体の理解と修正能力を測る。AIレッドチーミングの文脈では、これらのベンチマークを組み合わせてモデルの攻防両面の能力を総合的に評価する流れが生まれつつある。
OWASP が Web アプリケーションの脆弱性を分類・啓蒙してきたように、AI セキュリティベンチマークの標準化は、モデル開発者・セキュリティベンダー・規制当局が共通言語で能力とリスクを議論するための基盤になると期待されている。


A2A(Agent-to-Agent Protocol)とは、異なる AI エージェント同士が能力の発見・タスクの委譲・状態の同期を行うための通信プロトコルであり、Google が 2025 年 4 月に公開した。

AES-256 とは、米国国立標準技術研究所(NIST)が標準化した共通鍵暗号方式 AES(Advanced Encryption Standard)のうち、鍵長 256 ビットを使用する最高強度の暗号アルゴリズムである。

Agent Skills とは、AI エージェントに特定のタスクや専門知識を実行させるために定義された再利用可能な命令セットであり、エージェントの能力を拡張するモジュール単位として機能する。



Claude Code チーム導入ガイド — CLAUDE.md・Skills・Hooks で開発ワークフローを標準化する方法
Agentic AI とは、人間の逐一の指示なしに目標を解釈し、計画の立案・実行・検証を自律的に繰り返す AI システムの総称である。