CyberGym (ไซเบอร์ยิม)とは？

ทำไมจึงจำเป็นต้องมี AI Security Benchmark

ในขณะที่ความสามารถของ LLM ขยายตัวจากการสร้างโค้ดไปสู่การค้นหาและใช้ประโยชน์จากช่องโหว่ (Vulnerability) ความต้องการมาตรวัดที่เป็นกลางเพื่อประเมินว่า "โมเดลนี้สามารถปฏิบัติภารกิจด้านความปลอดภัยได้ในระดับใด" จึงเพิ่มสูงขึ้น แม้ว่า Benchmark การเขียนโค้ดแบบดั้งเดิม (เช่น SWE-bench) จะวัดผลการแก้ไขบั๊กหรือการทำงานให้สำเร็จลุล่วง แต่ก็ไม่สามารถวัดความสามารถในการสร้าง Exploit จากมุมมองของผู้โจมตีได้ CyberGym จึงเป็น Benchmark ที่ถูกออกแบบมาเพื่อเติมเต็มช่องว่างนี้

กลไกการประเมิน

CyberGym ใช้ช่องโหว่ที่รู้จักกันดี (CVE) ของซอฟต์แวร์ที่มีอยู่จริงเป็นโจทย์ โดยให้คะแนนตามขั้นตอนว่าโมเดล AI สามารถจำลองการโจมตีได้อย่างอิสระเพียงใด โดยไม่ได้ประเมินเพียงแค่ว่า "สามารถอธิบายช่องโหว่ได้หรือไม่" แต่ยังรวมถึงการประเมินว่าโมเดลสามารถสร้างโค้ด Exploit ที่ใช้งานได้จริง และทำให้เกิดการ Crash หรือการยกระดับสิทธิ์ (Privilege Escalation) ในสภาพแวดล้อมเป้าหมายได้หรือไม่

โจทย์ถูกแบ่งตามระดับความยาก ครอบคลุมตั้งแต่ช่องโหว่คลาสสิกอย่าง Buffer Overflow ไปจนถึงสถานการณ์การโจมตีขั้นสูงที่ต้องใช้ช่องโหว่หลายจุดร่วมกัน โมเดลจะได้รับซอร์สโค้ดที่มีช่องโหว่และการเข้าถึงสภาพแวดล้อมการทำงาน โดยจำเป็นต้องดำเนินการตั้งแต่การระบุช่องโหว่ การสร้างโค้ดโจมตี ไปจนถึงการยืนยันผลการทำงานอย่างครบวงจร

สิ่งที่คะแนนของ Mythos บ่งบอก

ในการประกาศ Project Glasswing ทาง Anthropic ได้เปิดเผยคะแนนของ Claude Mythos Preview บน CyberGym โดย Mythos ทำคะแนนได้ถึง 83.1% ซึ่งสูงกว่า Claude Opus 4.6 รุ่นเดิม (66.6%) อย่างมีนัยสำคัญ ความแตกต่างนี้แสดงให้เห็นถึงช่องว่างระหว่างความเข้าใจด้านความปลอดภัยที่เป็นส่วนขยายของความสามารถในการใช้เหตุผลทั่วไป กับความสามารถของโมเดลที่ผ่านการฝึกฝนเฉพาะทางด้านความปลอดภัย

อย่างไรก็ตาม คะแนน Benchmark ไม่ได้หมายความถึงความสามารถในการป้องกันในโลกความเป็นจริงโดยตรง เนื่องจากโจทย์ของ CyberGym อ้างอิงจาก CVE ที่ทราบกันดีอยู่แล้ว จึงเป็นคนละแกนกับการค้นหาช่องโหว่ Zero-day ที่ยังไม่เคยถูกค้นพบมาก่อน ผลงานของ Mythos ในการค้นพบบั๊กที่ไม่เคยทราบมาก่อนใน OpenBSD และ FFmpeg จึงเป็นหลักฐานของความสามารถที่แยกส่วนจากคะแนนของ CyberGym

ความสัมพันธ์กับ Security Benchmark อื่นๆ

CyberGym ไม่ใช่ Benchmark เพียงตัวเดียวที่ใช้วัดความสามารถด้านความปลอดภัยของ AI โดย Terminal-Bench 2.0 จะประเมินสถานการณ์การโจมตีที่เน้นการปฏิบัติจริงมากขึ้นซึ่งรวมถึงการใช้งาน Terminal ส่วน SWE-bench Prop จะวัดความเข้าใจและการแก้ไขโค้ดเบสทั้งหมด ในบริบทของ AI Red Teaming กำลังเกิดแนวโน้มที่จะนำ Benchmark เหล่านี้มาใช้ร่วมกันเพื่อประเมินความสามารถทั้งในเชิงรุกและเชิงรับของโมเดลอย่างครอบคลุม

เช่นเดียวกับที่ OWASP ได้จำแนกและสร้างความตระหนักรู้เกี่ยวกับช่องโหว่ของเว็บแอปพลิเคชัน การสร้างมาตรฐานให้กับ AI Security Benchmark คาดว่าจะเป็นรากฐานสำคัญที่ช่วยให้นักพัฒนาโมเดล ผู้จำหน่ายโซลูชันความปลอดภัย และหน่วยงานกำกับดูแล สามารถหารือเกี่ยวกับความสามารถและความเสี่ยงโดยใช้ภาษาเดียวกันได้

CyberGym (ไซเบอร์ยิม)

ทำไมจึงจำเป็นต้องมี AI Security Benchmark

กลไกการประเมิน

สิ่งที่คะแนนของ Mythos บ่งบอก

ความสัมพันธ์กับ Security Benchmark อื่นๆ

คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)

AI พยากรณ์ความต้องการ (Demand Forecasting AI)

AI ออบเซอร์แวนบิลิตี้ (AI Observability)

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)