ຮົ້ວກັ້ນ (AI Guardrails)

ຮົ້ວກັ້ນ (AI Guardrails)

ກົນໄກຄວາມປອດໄພທີ່ກວດສອບການນຳເຂົ້າແລະຜົນອອກຂອງ LLM ເພື່ອກວດຈັບແລະສະກັດກັ້ນເນື້ອຫາທີ່ເປັນອັນຕະລາຍ, ການຮົ່ວໄຫລຂອງຂໍ້ມູນລັບ, ແລະການລະເມີດນະໂຍບາຍໂດຍອັດຕະໂນມັດ.

ກາດເລວ (Guardrails) ແມ່ນຫຍັງ

ກາດເລວ (AI Guardrails) ແມ່ນຊື່ເອີ້ນລວມຂອງກົນໄກຄວາມປອດໄພທີ່ກວດສອບ ແລະ ຕິດຕາມການປ້ອນຂໍ້ມູນເຂົ້າ-ອອກຂອງ LLM ເພື່ອກວດຈັບ ແລະ ສະກັດກັ້ນໂດຍອັດຕະໂນມັດ ທັງການສ້າງເນື້ອຫາທີ່ເປັນອັນຕະລາຍ, ການຮົ່ວໄຫຼຂອງຂໍ້ມູນລັບ, ແລະ ການລະເມີດນະໂຍບາຍ. ຄ້າຍຄືກັບກາດເລວຂ້າງຖະໜົນທີ່ປ້ອງກັນລົດບໍ່ໃຫ້ອອກນອກເສັ້ນທາງ, ກາດເລວ AI ຮັກສາພຶດຕິກຳຂອງ AI ໃຫ້ຢູ່ໃນຂອບເຂດທີ່ຍອມຮັບໄດ້.

ດ້ານການປ້ອນຂໍ້ມູນ ແລະ ດ້ານຜົນລັບ

ກາດເລວເຮັດວຽກໃນສອງ Layer ຫຼັກ.

ກາດເລວດ້ານການປ້ອນຂໍ້ມູນ (Input Guardrails): ກວດສອບຂໍ້ມູນຂອງຜູ້ໃຊ້ກ່ອນທີ່ຈະຖືກສົ່ງໄປຫາ Model. ຕົວຢ່າງໄດ້ແກ່ ການກວດຈັບ Prompt Injection, ການ Masking ຂໍ້ມູນສ່ວນຕົວ (PII), ແລະ ການຈຳກັດຫົວຂໍ້ (ສະກັດຄຳຖາມທີ່ຢູ່ນອກຂອບເຂດວຽກງານ).

ກາດເລວດ້ານຜົນລັບ (Output Guardrails): ກວດສອບການຕອບສະໜອງຂອງ Model ກ່ອນທີ່ຈະສົ່ງຄືນໃຫ້ຜູ້ໃຊ້. ປະກອບມີ ການ Filtering ຄຳເວົ້າທີ່ເປັນອັນຕະລາຍ, ການກວດສອບຄວາມຖືກຕ້ອງຂອງຂໍ້ເທັດຈິງ (Grounding), ແລະ ການກວດສອບການຮົ່ວໄຫຼຂອງຂໍ້ມູນລັບ.

ວິທີການ Implement

ໂດຍທົ່ວໄປແລ້ວ ຈະໃຊ້ການລວມກັນລະຫວ່າງ Rule-based (Regular Expression, Keyword List) ແລະ ML-based (Classification Model, ການປະເມີນໂດຍ LLM ອື່ນ). ການອອກແບບກາດເລວໂດຍອ້າງອີງຕາມໝວດໝູ່ຄວາມສ່ຽງທີ່ OWASP LLM Top 10 ກຳນົດໄວ້ ຈະຊ່ວຍເພີ່ມຄວາມຄອບຄຸມໄດ້ຫຼາຍຂຶ້ນ.

ຈຸດອ່ອນໃນການດຳເນີນງານ

ກາດເລວທີ່ເຂັ້ມງວດເກີນໄປຈະສົ່ງຜົນເສຍຕໍ່ປະສົບການຂອງຜູ້ໃຊ້. ຫາກ "False Positive" ທີ່ຄຳຖາມວຽກງານທີ່ຖືກຕ້ອງຖືກ Block ຜິດພາດເກີດຂຶ້ນເລື້ອຍໆ, ຜູ້ໃຊ້ກໍ່ຈະເລີກໃຊ້ເຄື່ອງມື AI. ການ Tuning ຄ່າ Threshold ແລະ ການໃຫ້ Feedback ທີ່ໂປ່ງໃສກ່ຽວກັບເຫດຜົນທີ່ຖືກ Block ຈຶ່ງເປັນກຸນແຈສຳຄັນຂອງການດຳເນີນງານ.