CyberGym (ໄຊເບີຈິມ)とは？

ເປັນຫຍັງຈຶ່ງຈຳເປັນຕ້ອງມີ AI Security Benchmark

ໃນຂະນະທີ່ຄວາມສາມາດຂອງ LLM ຂະຫຍາຍຕົວຈາກການສ້າງໂຄ້ດໄປສູ່ການຄົ້ນພົບ ແລະ ການໃຊ້ປະໂຫຍດຈາກຊ່ອງໂຫວ່ (Vulnerability), ຈຶ່ງມີຄວາມຕ້ອງການມາດຕະຖານໃນການວັດແທກຢ່າງເປັນກາງວ່າ "ແບບຈຳລອງນີ້ສາມາດປະຕິບັດວຽກງານດ້ານຄວາມປອດໄພໄດ້ໃນລະດັບໃດ". Coding Benchmark ແບບດັ້ງເດີມ (ເຊັ່ນ: SWE-bench) ແມ່ນວັດແທກການແກ້ໄຂບັກ ຫຼື ການເຮັດວຽກໃຫ້ສຳເລັດ ແຕ່ບໍ່ສາມາດວັດແທກຄວາມສາມາດໃນການສ້າງ Exploit ຈາກມຸມມອງຂອງຜູ້ໂຈມຕີໄດ້. CyberGym ແມ່ນ Benchmark ທີ່ຖືກອອກແບບມາເພື່ອປິດຊ່ອງຫວ່າງນີ້.

ກົນໄກການປະເມີນຜົນ

CyberGym ໃຊ້ຊ່ອງໂຫວ່ທີ່ມີຢູ່ຈິງ (CVE) ຂອງຊອບແວທີ່ໃຊ້ງານຢູ່ເປັນຫົວຂໍ້, ໂດຍໃຫ້ຄະແນນແບບເປັນຂັ້ນຕອນວ່າແບບຈຳລອງ AI ສາມາດຈຳລອງການໂຈມຕີໄດ້ຢ່າງອິດສະຫຼະຫຼາຍປານໃດ. ບໍ່ແມ່ນພຽງແຕ່ "ສາມາດອະທິບາຍຊ່ອງໂຫວ່ໄດ້ຫຼືບໍ່", ແຕ່ຍັງປະເມີນໄປເຖິງການສ້າງ Exploit code ທີ່ເຮັດວຽກໄດ້ຈິງ ແລະ ສາມາດເຮັດໃຫ້ເກີດການ Crash ຫຼື ການຍົກລະດັບສິດ (Privilege Escalation) ໃນສະພາບແວດລ້ອມເປົ້າໝາຍໄດ້.

ໂຈດຖືກຈັດລຽງຕາມລະດັບຄວາມຍາກ, ກວມເອົາຕັ້ງແຕ່ຊ່ອງໂຫວ່ຄລາສສິກເຊັ່ນ Buffer Overflow ໄປຈົນເຖິງສະຖານະການໂຈມຕີຂັ້ນສູງທີ່ເຊື່ອມໂຍງຫຼາຍຊ່ອງໂຫວ່ເຂົ້າດ້ວຍກັນ. ແບບຈຳລອງຈະໄດ້ຮັບ Source code ທີ່ມີຊ່ອງໂຫວ່ ແລະ ການເຂົ້າເຖິງສະພາບແວດລ້ອມການເຮັດວຽກ, ເຊິ່ງຕ້ອງດຳເນີນການຕັ້ງແຕ່ການລະບຸຊ່ອງໂຫວ່, ການສ້າງໂຄ້ດໂຈມຕີ, ໄປຈົນເຖິງການຢືນຢັນຜົນການເຮັດວຽກຢ່າງຄົບວົງຈອນ.

ສິ່ງທີ່ຄະແນນຂອງ Mythos ສະແດງໃຫ້ເຫັນ

ໃນການປະກາດ Project Glasswing, Anthropic ໄດ້ເປີດເຜີຍຄະແນນຂອງ Claude Mythos Preview ໃນ CyberGym. Mythos ເຮັດຄະແນນໄດ້ 83.1%, ເຊິ່ງສູງກວ່າ Claude Opus 4.6 ແບບດັ້ງເດີມ (66.6%) ຢ່າງຫຼວງຫຼາຍ. ຄວາມແຕກຕ່າງນີ້ສະແດງໃຫ້ເຫັນຢ່າງຈະແຈ້ງເຖິງຄວາມແຕກຕ່າງລະຫວ່າງຄວາມເຂົ້າໃຈດ້ານຄວາມປອດໄພທີ່ເປັນສ່ວນຂະຫຍາຍຂອງຄວາມສາມາດໃນການໃຫ້ເຫດຜົນທົ່ວໄປ (General Reasoning) ກັບຄວາມສາມາດຂອງແບບຈຳລອງທີ່ຜ່ານການຝຶກອົບຮົມດ້ານຄວາມປອດໄພໂດຍສະເພາະ.

ຢ່າງໃດກໍຕາມ, ຄະແນນ Benchmark ບໍ່ໄດ້ເຊື່ອມໂຍງໂດຍກົງກັບຄວາມສາມາດໃນການປ້ອງກັນໃນໂລກຄວາມເປັນຈິງ. ເນື່ອງຈາກໂຈດຂອງ CyberGym ອີງໃສ່ CVE ທີ່ມີຢູ່ແລ້ວ, ມັນຈຶ່ງເປັນຄົນລະແກນກັບຄວາມສາມາດໃນການຄົ້ນພົບ Zero-day ທີ່ບໍ່ເຄີຍຮູ້ຈັກມາກ່ອນ. ຜົນງານທີ່ Mythos ສາມາດຄົ້ນພົບບັກທີ່ບໍ່ເຄີຍຮູ້ຈັກມາກ່ອນໃນ OpenBSD ແລະ FFmpeg ແມ່ນຫຼັກຖານຢັ້ງຢືນເຖິງຄວາມສາມາດທີ່ເປັນອິດສະຫຼະຈາກຄະແນນ CyberGym.

ຄວາມສຳພັນກັບ Security Benchmark ອື່ນໆ

CyberGym ບໍ່ແມ່ນ Benchmark ດຽວທີ່ວັດແທກຄວາມສາມາດດ້ານຄວາມປອດໄພຂອງ AI. Terminal-Bench 2.0 ປະເມີນສະຖານະການໂຈມຕີທີ່ໃຊ້ງານຈິງຫຼາຍຂຶ້ນເຊິ່ງລວມເຖິງການໃຊ້ງານ Terminal, ແລະ SWE-bench Prop ວັດແທກຄວາມເຂົ້າໃຈ ແລະ ຄວາມສາມາດໃນການແກ້ໄຂ Codebase ທັງໝົດ. ໃນບໍລິບົດຂອງ AI Red Teaming, ການລວມເອົາ Benchmark ເຫຼົ່ານີ້ເຂົ້າດ້ວຍກັນເພື່ອປະເມີນຄວາມສາມາດທັງດ້ານການບຸກ ແລະ ການປ້ອງກັນຂອງແບບຈຳລອງຢ່າງຮອບດ້ານ ກຳລັງກາຍເປັນທ່າອ່ຽງທີ່ເກີດຂຶ້ນໃໝ່.

ເຊັ່ນດຽວກັບທີ່ OWASP ໄດ້ຈັດໝວດໝູ່ ແລະ ສ້າງຄວາມຮັບຮູ້ກ່ຽວກັບຊ່ອງໂຫວ່ຂອງ Web Application, ການສ້າງມາດຕະຖານ AI Security Benchmark ຄາດວ່າຈະກາຍເປັນພື້ນຖານໃຫ້ຜູ້ພັດທະນາແບບຈຳລອງ, ຜູ້ໃຫ້ບໍລິການດ້ານຄວາມປອດໄພ ແລະ ໜ່ວຍງານກຳກັບດູແລ ສາມາດປຶກສາຫາລືກ່ຽວກັບຄວາມສາມາດ ແລະ ຄວາມສ່ຽງໂດຍໃຊ້ພາສາທີ່ເປັນມາດຕະຖານດຽວກັນ.

CyberGym (ໄຊເບີຈິມ)

ເປັນຫຍັງຈຶ່ງຈຳເປັນຕ້ອງມີ AI Security Benchmark

ກົນໄກການປະເມີນຜົນ

ສິ່ງທີ່ຄະແນນຂອງ Mythos ສະແດງໃຫ້ເຫັນ

ຄວາມສຳພັນກັບ Security Benchmark ອື່ນໆ

ຄຳສັບທີ່ກ່ຽວຂ້ອງ

AI ROI (ຜົນຕອບແທນຈາກການລົງທຶນ AI)

AI ຄາດຄະເນຄວາມຕ້ອງການ (Demand Forecasting AI)

AI ສ້າງສັນ (Generative AI)

AI ອ້ອມຂ້າງ