CyberGym ແມ່ນມາດຕະຖານ (benchmark) ສຳລັບການປະເມີນຄວາມສາມາດດ້ານຄວາມປອດໄພທາງໄຊເບີຂອງແບບຈຳລອງ AI, ເຊິ່ງວັດແທກຄວາມສາມາດໃນການຄົ້ນຫາ ແລະ ສ້າງຊ່ອງໂຫວ່ຂອງຊອບແວທີ່ມີຢູ່ຈິງຄືນໃໝ່ໄດ້ຢ່າງເປັນຂັ້ນຕອນ.
ໃນຂະນະທີ່ຄວາມສາມາດຂອງ LLM ຂະຫຍາຍຕົວຈາກການສ້າງໂຄ້ດໄປສູ່ການຄົ້ນພົບ ແລະ ການໃຊ້ປະໂຫຍດຈາກຊ່ອງໂຫວ່ (Vulnerability), ຈຶ່ງມີຄວາມຕ້ອງການມາດຕະຖານໃນການວັດແທກຢ່າງເປັນກາງວ່າ "ແບບຈຳລອງນີ້ສາມາດປະຕິບັດວຽກງານດ້ານຄວາມປອດໄພໄດ້ໃນລະດັບໃດ". Coding Benchmark ແບບດັ້ງເດີມ (ເຊັ່ນ: SWE-bench) ແມ່ນວັດແທກການແກ້ໄຂບັກ ຫຼື ການເຮັດວຽກໃຫ້ສຳເລັດ ແຕ່ບໍ່ສາມາດວັດແທກຄວາມສາມາດໃນການສ້າງ Exploit ຈາກມຸມມອງຂອງຜູ້ໂຈມຕີໄດ້. CyberGym ແມ່ນ Benchmark ທີ່ຖືກອອກແບບມາເພື່ອປິດຊ່ອງຫວ່າງນີ້.
CyberGym ໃຊ້ຊ່ອງໂຫວ່ທີ່ມີຢູ່ຈິງ (CVE) ຂອງຊອບແວທີ່ໃຊ້ງານຢູ່ເປັນຫົວຂໍ້, ໂດຍໃຫ້ຄະແນນແບບເປັນຂັ້ນຕອນວ່າແບບຈຳລອງ AI ສາມາດຈຳລອງການໂຈມຕີໄດ້ຢ່າງອິດສະຫຼະຫຼາຍປານໃດ. ບໍ່ແມ່ນພຽງແຕ່ "ສາມາດອະທິບາຍຊ່ອງໂຫວ່ໄດ້ຫຼືບໍ່", ແຕ່ຍັງປະເມີນໄປເຖິງການສ້າງ Exploit code ທີ່ເຮັດວຽກໄດ້ຈິງ ແລະ ສາມາດເຮັດໃຫ້ເກີດການ Crash ຫຼື ການຍົກລະດັບສິດ (Privilege Escalation) ໃນສະພາບແວດລ້ອມເປົ້າໝາຍໄດ້.
ໂຈດຖືກຈັດລຽງຕາມລະດັບຄວາມຍາກ, ກວມເອົາຕັ້ງແຕ່ຊ່ອງໂຫວ່ຄລາສສິກເຊັ່ນ Buffer Overflow ໄປຈົນເຖິງສະຖານະການໂຈມຕີຂັ້ນສູງທີ່ເຊື່ອມໂຍງຫຼາຍຊ່ອງໂຫວ່ເຂົ້າດ້ວຍກັນ. ແບບຈຳລອງຈະໄດ້ຮັບ Source code ທີ່ມີຊ່ອງໂຫວ່ ແລະ ການເຂົ້າເຖິງສະພາບແວດລ້ອມການເຮັດວຽກ, ເຊິ່ງຕ້ອງດຳເນີນການຕັ້ງແຕ່ການລະບຸຊ່ອງໂຫວ່, ການສ້າງໂຄ້ດໂຈມຕີ, ໄປຈົນເຖິງການຢືນຢັນຜົນການເຮັດວຽກຢ່າງຄົບວົງຈອນ.
ໃນການປະກາດ Project Glasswing, Anthropic ໄດ້ເປີດເຜີຍຄະແນນຂອງ Claude Mythos Preview ໃນ CyberGym. Mythos ເຮັດຄະແນນໄດ້ 83.1%, ເຊິ່ງສູງກວ່າ Claude Opus 4.6 ແບບດັ້ງເດີມ (66.6%) ຢ່າງຫຼວງຫຼາຍ. ຄວາມແຕກຕ່າງນີ້ສະແດງໃຫ້ເຫັນຢ່າງຈະແຈ້ງເຖິງຄວາມແຕກຕ່າງລະຫວ່າງຄວາມເຂົ້າໃຈດ້ານຄວາມປອດໄພທີ່ເປັນສ່ວນຂະຫຍາຍຂອງຄວາມສາມາດໃນການໃຫ້ເຫດຜົນທົ່ວໄປ (General Reasoning) ກັບຄວາມສາມາດຂອງແບບຈຳລອງທີ່ຜ່ານການຝຶກອົບຮົມດ້ານຄວາມປອດໄພໂດຍສະເພາະ.
ຢ່າງໃດກໍຕາມ, ຄະແນນ Benchmark ບໍ່ໄດ້ເຊື່ອມໂຍງໂດຍກົງກັບຄວາມສາມາດໃນການປ້ອງກັນໃນໂລກຄວາມເປັນຈິງ. ເນື່ອງຈາກໂຈດຂອງ CyberGym ອີງໃສ່ CVE ທີ່ມີຢູ່ແລ້ວ, ມັນຈຶ່ງເປັນຄົນລະແກນກັບຄວາມສາມາດໃນການຄົ້ນພົບ Zero-day ທີ່ບໍ່ເຄີຍຮູ້ຈັກມາກ່ອນ. ຜົນງານທີ່ Mythos ສາມາດຄົ້ນພົບບັກທີ່ບໍ່ເຄີຍຮູ້ຈັກມາກ່ອນໃນ OpenBSD ແລະ FFmpeg ແມ່ນຫຼັກຖານຢັ້ງຢືນເຖິງຄວາມສາມາດທີ່ເປັນອິດສະຫຼະຈາກຄະແນນ CyberGym.
CyberGym ບໍ່ແມ່ນ Benchmark ດຽວທີ່ວັດແທກຄວາມສາມາດດ້ານຄວາມປອດໄພຂອງ AI. Terminal-Bench 2.0 ປະເມີນສະຖານະການໂຈມຕີທີ່ໃຊ້ງານຈິງຫຼາຍຂຶ້ນເຊິ່ງລວມເຖິງການໃຊ້ງານ Terminal, ແລະ SWE-bench Prop ວັດແທກຄວາມເຂົ້າໃຈ ແລະ ຄວາມສາມາດໃນການແກ້ໄຂ Codebase ທັງໝົດ. ໃນບໍລິບົດຂອງ AI Red Teaming, ການລວມເອົາ Benchmark ເຫຼົ່ານີ້ເຂົ້າດ້ວຍກັນເພື່ອປະເມີນຄວາມສາມາດທັງດ້ານການບຸກ ແລະ ການປ້ອງກັນຂອງແບບຈຳລອງຢ່າງຮອບດ້ານ ກຳລັງກາຍເປັນທ່າອ່ຽງທີ່ເກີດຂຶ້ນໃໝ່.
ເຊັ່ນດຽວກັບທີ່ OWASP ໄດ້ຈັດໝວດໝູ່ ແລະ ສ້າງຄວາມຮັບຮູ້ກ່ຽວກັບຊ່ອງໂຫວ່ຂອງ Web Application, ການສ້າງມາດຕະຖານ AI Security Benchmark ຄາດວ່າຈະກາຍເປັນພື້ນຖານໃຫ້ຜູ້ພັດທະນາແບບຈຳລອງ, ຜູ້ໃຫ້ບໍລິການດ້ານຄວາມປອດໄພ ແລະ ໜ່ວຍງານກຳກັບດູແລ ສາມາດປຶກສາຫາລືກ່ຽວກັບຄວາມສາມາດ ແລະ ຄວາມສ່ຽງໂດຍໃຊ້ພາສາທີ່ເປັນມາດຕະຖານດຽວກັນ.



A2A (Agent-to-Agent Protocol) ແມ່ນໂປຣໂຕຄໍການສື່ສານທີ່ຊ່ວຍໃຫ້ AI agent ທີ່ແຕກຕ່າງກັນສາມາດຄົ້ນຫາຄວາມສາມາດ, ມອບໝາຍໜ້າທີ່, ແລະ ເຊື່ອມຕໍ່ ຫຼື ຊິງຄ໌ຂໍ້ມູນສະຖານະລະຫວ່າງກັນໄດ້, ໂດຍ Google ໄດ້ເປີດຕົວໃນເດືອນເມສາ 2025.

AES-256 ແມ່ນ algorithm ການເຂົ້າລະຫັດທີ່ມີຄວາມເຂັ້ມແຂງສູງສຸດ ໂດຍໃຊ້ຄວາມຍາວກະແຈ 256 bits ໃນລະບົບການເຂົ້າລະຫັດດ້ວຍກະແຈຮ່ວມ AES (Advanced Encryption Standard) ທີ່ໄດ້ຮັບການກຳນົດມາດຕະຖານໂດຍ ສະຖາບັນມາດຕະຖານແລະເທັກໂນໂລຊີແຫ່ງຊາດສະຫະລັດອາເມລິກາ (NIST).

Agentic RAG ແມ່ນສະຖາປັດຕະຍະກຳທີ່ LLM ເຮັດໜ້າທີ່ເປັນ agent ໂດຍການສ້າງ query ການຄົ້ນຫາ, ປະເມີນຜົນລັບ, ແລະຕັດສິນໃຈຄົ້ນຫາຄືນໃໝ່ຢ່າງອັດຕະໂນມັດຊ້ຳໆ ເພື່ອບັນລຸຄວາມຖືກຕ້ອງຂອງຄຳຕອບທີ່ RAG ແບບຖາມ-ຕອບທຳມະດາບໍ່ສາມາດໃຫ້ໄດ້.

ການປະຕິບັດງານເພື່ອຕິດຕາມ ແລະ ສະແດງຜົນການເຮັດວຽກຂອງລະບົບ AI ທີ່ກຳລັງໃຊ້ງານຈິງຢ່າງຕໍ່ເນື່ອງ, ລວມທັງການປ້ອນຂໍ້ມູນ/ຜົນລັດ, ຄວາມໜ່ວງ (Latency), ຕົ້ນທຶນ ແລະ ຄຸນນະພາບ. ເປັນສິ່ງຈຳເປັນສຳລັບການກວດຫາອາການ Hallucination ແລະ Drift ໄດ້ຢ່າງວ່ອງໄວ.

AI ROI ແມ່ນຕົວຊີ້ວັດທີ່ໃຊ້ວັດແທກຜົນໄດ້ຮັບຢ່າງເປັນປະລິມານ ເຊັ່ນ: ການປັບປຸງປະສິດທິພາບການເຮັດວຽກ ແລະ ການເພີ່ມລາຍໄດ້ທີ່ໄດ້ຮັບຈາກຕົ້ນທຶນທີ່ລົງທຶນໃນການນຳໃຊ້ ແລະ ດຳເນີນງານ AI.