CyberGym คือเกณฑ์มาตรฐาน (benchmark) สำหรับประเมินความสามารถด้านความปลอดภัยทางไซเบอร์ของโมเดล AI โดยจะวัดผลแบบเป็นลำดับขั้นว่าโมเดลสามารถค้นหาและจำลองช่องโหว่ของซอฟต์แวร์ที่มีอยู่จริงได้หรือไม่
ในขณะที่ความสามารถของ LLM ขยายตัวจากการสร้างโค้ดไปสู่การค้นหาและใช้ประโยชน์จากช่องโหว่ (Vulnerability) ความต้องการมาตรวัดที่เป็นกลางเพื่อประเมินว่า "โมเดลนี้สามารถปฏิบัติภารกิจด้านความปลอดภัยได้ในระดับใด" จึงเพิ่มสูงขึ้น แม้ว่า Benchmark การเขียนโค้ดแบบดั้งเดิม (เช่น SWE-bench) จะวัดผลการแก้ไขบั๊กหรือการทำงานให้สำเร็จลุล่วง แต่ก็ไม่สามารถวัดความสามารถในการสร้าง Exploit จากมุมมองของผู้โจมตีได้ CyberGym จึงเป็น Benchmark ที่ถูกออกแบบมาเพื่อเติมเต็มช่องว่างนี้
CyberGym ใช้ช่องโหว่ที่รู้จักกันดี (CVE) ของซอฟต์แวร์ที่มีอยู่จริงเป็นโจทย์ โดยให้คะแนนตามขั้นตอนว่าโมเดล AI สามารถจำลองการโจมตีได้อย่างอิสระเพียงใด โดยไม่ได้ประเมินเพียงแค่ว่า "สามารถอธิบายช่องโหว่ได้หรือไม่" แต่ยังรวมถึงการประเมินว่าโมเดลสามารถสร้างโค้ด Exploit ที่ใช้งานได้จริง และทำให้เกิดการ Crash หรือการยกระดับสิทธิ์ (Privilege Escalation) ในสภาพแวดล้อมเป้าหมายได้หรือไม่
โจทย์ถูกแบ่งตามระดับความยาก ครอบคลุมตั้งแต่ช่องโหว่คลาสสิกอย่าง Buffer Overflow ไปจนถึงสถานการณ์การโจมตีขั้นสูงที่ต้องใช้ช่องโหว่หลายจุดร่วมกัน โมเดลจะได้รับซอร์สโค้ดที่มีช่องโหว่และการเข้าถึงสภาพแวดล้อมการทำงาน โดยจำเป็นต้องดำเนินการตั้งแต่การระบุช่องโหว่ การสร้างโค้ดโจมตี ไปจนถึงการยืนยันผลการทำงานอย่างครบวงจร
ในการประกาศ Project Glasswing ทาง Anthropic ได้เปิดเผยคะแนนของ Claude Mythos Preview บน CyberGym โดย Mythos ทำคะแนนได้ถึง 83.1% ซึ่งสูงกว่า Claude Opus 4.6 รุ่นเดิม (66.6%) อย่างมีนัยสำคัญ ความแตกต่างนี้แสดงให้เห็นถึงช่องว่างระหว่างความเข้าใจด้านความปลอดภัยที่เป็นส่วนขยายของความสามารถในการใช้เหตุผลทั่วไป กับความสามารถของโมเดลที่ผ่านการฝึกฝนเฉพาะทางด้านความปลอดภัย
อย่างไรก็ตาม คะแนน Benchmark ไม่ได้หมายความถึงความสามารถในการป้องกันในโลกความเป็นจริงโดยตรง เนื่องจากโจทย์ของ CyberGym อ้างอิงจาก CVE ที่ทราบกันดีอยู่แล้ว จึงเป็นคนละแกนกับการค้นหาช่องโหว่ Zero-day ที่ยังไม่เคยถูกค้นพบมาก่อน ผลงานของ Mythos ในการค้นพบบั๊กที่ไม่เคยทราบมาก่อนใน OpenBSD และ FFmpeg จึงเป็นหลักฐานของความสามารถที่แยกส่วนจากคะแนนของ CyberGym
CyberGym ไม่ใช่ Benchmark เพียงตัวเดียวที่ใช้วัดความสามารถด้านความปลอดภัยของ AI โดย Terminal-Bench 2.0 จะประเมินสถานการณ์การโจมตีที่เน้นการปฏิบัติจริงมากขึ้นซึ่งรวมถึงการใช้งาน Terminal ส่วน SWE-bench Prop จะวัดความเข้าใจและการแก้ไขโค้ดเบสทั้งหมด ในบริบทของ AI Red Teaming กำลังเกิดแนวโน้มที่จะนำ Benchmark เหล่านี้มาใช้ร่วมกันเพื่อประเมินความสามารถทั้งในเชิงรุกและเชิงรับของโมเดลอย่างครอบคลุม
เช่นเดียวกับที่ OWASP ได้จำแนกและสร้างความตระหนักรู้เกี่ยวกับช่องโหว่ของเว็บแอปพลิเคชัน การสร้างมาตรฐานให้กับ AI Security Benchmark คาดว่าจะเป็นรากฐานสำคัญที่ช่วยให้นักพัฒนาโมเดล ผู้จำหน่ายโซลูชันความปลอดภัย และหน่วยงานกำกับดูแล สามารถหารือเกี่ยวกับความสามารถและความเสี่ยงโดยใช้ภาษาเดียวกันได้



A2A (Agent-to-Agent Protocol) คือโปรโตคอลการสื่อสารที่ช่วยให้ AI Agent ต่างชนิดสามารถค้นหาความสามารถ มอบหมายงาน และซิงโครไนซ์สถานะระหว่างกันได้ โดย Google เปิดตัวในเดือนเมษายน ปี 2025

AES-256 คือ อัลกอริทึมการเข้ารหัสที่มีความแข็งแกร่งสูงสุด โดยใช้ความยาวคีย์ 256 บิต ซึ่งเป็นส่วนหนึ่งของมาตรฐานการเข้ารหัสแบบสมมาตร AES (Advanced Encryption Standard) ที่ได้รับการกำหนดมาตรฐานโดยสถาบันมาตรฐานและเทคโนโลยีแห่งชาติของสหรัฐอเมริกา (NIST)

Agentic RAG คือสถาปัตยกรรมที่ LLM ทำหน้าที่เป็น Agent โดยวนซ้ำกระบวนการสร้าง Query ค้นหา ประเมินผลลัพธ์ และตัดสินใจค้นหาซ้ำอย่างอิสระ เพื่อให้ได้ความแม่นยำของคำตอบที่เหนือกว่า RAG แบบถาม-ตอบทั่วไป

AI ROI คือ ตัวชี้วัดที่ใช้วัดผลลัพธ์เชิงปริมาณของการปรับปรุงประสิทธิภาพการทำงานและการเพิ่มรายได้ที่ได้รับ เทียบกับต้นทุนที่ลงทุนไปในการนำ AI มาใช้งานและดำเนินการ

AI TRiSM คือกรอบแนวคิดโดยรวมที่ใช้เพื่อสร้างความมั่นใจในด้านความน่าเชื่อถือ การจัดการความเสี่ยง และความปลอดภัยของโมเดล AI อย่างเป็นระบบ ซึ่งเป็นแนวคิดที่นำเสนอโดย Gartner