ຄູ່ມືການນຳໃຊ້ AI Guardrails — ວິທີອອກແບບລະບົບຄວາມປອດໄພສຳລັບແອັບພລິເຄຊັນ LLM

ຄູ່ມືການນຳໃຊ້ AI Guardrails — ວິທີອອກແບບລະບົບຄວາມປອດໄພສຳລັບແອັບພລິເຄຊັນ LLM

ບົດນຳ

AI Guardrails ແມ່ນຄຳສັບລວມຂອງກົນໄກຄວາມປອດໄພທີ່ໃຊ້ໃນການກວດສອບ ແລະ ຄວບຄຸມການປ້ອນຂໍ້ມູນ (Input) ແລະ ການສະແດງຜົນ (Output) ຂອງແອັບພລິເຄຊັນ LLM ເພື່ອຫຼຸດຜ່ອນຄວາມສ່ຽງຕ່າງໆ ເຊັ່ນ: Prompt Injection ແລະ Hallucination.

ໃນຂະນະທີ່ການນຳ Generative AI ມາໃຊ້ງານຈິງກຳລັງເລັ່ງຕົວຂຶ້ນ, ກໍມີລາຍງານກໍລະນີທີ່ແອັບພລິເຄຊັນຖືກປ່ອຍອອກມາໂດຍບໍ່ມີມາດຕະການປ້ອງກັນຄວາມປອດໄພທີ່ເໝາະສົມ ເຊິ່ງນຳໄປສູ່ການຖືກໂຈມຕີ ຫຼື ການແຜ່ກະຈາຍຂໍ້ມູນທີ່ຜິດພາດ. ບົດຄວາມນີ້ມີຈຸດປະສົງສຳລັບວິສະວະກອນ ແລະ ຜູ້ຈັດການຜະລິດຕະພັນ (Product Manager) ທີ່ກ່ຽວຂ້ອງກັບການອອກແບບ, ການພັດທະນາ ແລະ ການດຳເນີນງານຂອງແອັບພລິເຄຊັນ LLM ໂດຍຈະອະທິບາຍຕັ້ງແຕ່ການກຳນົດ Threat Model ໄປຈົນເຖິງການປ້ອງກັນ Input/Output, ການສ້າງຊຸດຂໍ້ມູນສຳລັບການປະເມີນຜົນ (Evaluation Set) ແລະ ການຮອງຮັບ Multi-tenant ຈາກມຸມມອງຂອງການຈັດຕັ້ງປະຕິບັດຈິງ. ຫຼັງຈາກອ່ານຈົບ, ທ່ານຈະໄດ້ຮັບໂຄງຮ່າງການອອກແບບທີ່ສາມາດນຳໄປປັບໃຊ້ກັບບໍລິການຂອງບໍລິສັດທ່ານໄດ້ທັນທີ.

ເພື່ອອອກແບບ Guardrail ໃຫ້ຖືກຕ້ອງ, ກ່ອນອື່ນໝົດຈຳເປັນຕ້ອງມີຄວາມຊັດເຈນວ່າ "ຈະປົກປ້ອງຫຍັງ". ຖ້າເລີ່ມການຈັດຕັ້ງປະຕິບັດໂດຍບໍ່ໄດ້ກວດສອບຄວາມສ່ຽງຂອງທັງຂາເຂົ້າ ແລະ ຂາອອກໃຫ້ລະອຽດ, ມັນຈະງ່າຍທີ່ຈະເກີດການສະກັດກັ້ນທີ່ເກີນຄວາມຈຳເປັນ ຫຼື ເກີດການຕົກຫຼົ່ນໄດ້.

ສິ່ງທີ່ຄວນເຮັດໃນເບື້ອງຕົ້ນແມ່ນການຈັດລະບຽບຂໍ້ມູນທີ່ແອັບພລິເຄຊັນ LLM ຂອງບໍລິສັດທ່ານນຳໃຊ້ ແລະ ຜູ້ໃຊ້ທີ່ຄາດໄວ້. ຈາກນັ້ນ, ໃຫ້ເຮັດການ Mapping ເສັ້ນທາງທີ່ໄພຂົ່ມຂູ່ຕ່າງໆ ເຊັ່ນ: Prompt Injection ຫຼື Hallucination ອາດຈະເກີດຂຶ້ນໄດ້. ຖ້າລະເລີຍວຽກງານພື້ນຖານເຫຼົ່ານີ້, ມັນມີແນວໂນ້ມທີ່ຕົ້ນທຶນໃນການຈັດຕັ້ງປະຕິບັດໃນຂັ້ນຕອນຕໍ່ໄປຈະເພີ່ມທະວີຂຶ້ນເລື້ອຍໆ.

ການຈັດລະບຽບການປ້ອນຂໍ້ມູນ ແລະ ການສະແດງຜົນທີ່ຕ້ອງປົກປ້ອງ

ກ່ອນທີ່ຈະອອກແບບ Guardrail, ກ່ອນອື່ນໝົດຕ້ອງມີຄວາມຊັດເຈນວ່າ "ຈະປົກປ້ອງຫຍັງ". ທັງຂາເຂົ້າ ແລະ ຂາອອກລ້ວນແຕ່ມີສິ່ງທີ່ຕ້ອງປົກປ້ອງ ແລະ ແຕ່ລະຢ່າງກໍມີລັກສະນະທີ່ແຕກຕ່າງກັນ.

ສິ່ງທີ່ຕ້ອງປົກປ້ອງຢູ່ຝັ່ງຂາເຂົ້າ (Input)

  • Prompt Injection: ການໂຈມຕີທີ່ຜູ້ໃຊ້ຝັງຂໍ້ຄວາມທີ່ບໍ່ຫວັງດີເພື່ອພະຍາຍາມຂຽນທັບ System Prompt. ໃຫ້ຄາດການໄວ້ທັງການໂຈມຕີແບບ Direct Injection ແລະ Indirect Injection ຜ່ານຂໍ້ມູນພາຍນອກ.
  • Sensitive Information Disclosure: ກໍລະນີທີ່ຜູ້ໃຊ້ປ້ອນຂໍ້ມູນສ່ວນຕົວ ຫຼື ຂໍ້ມູນການຢືນຢັນຕົວຕົນ ໂດຍບໍ່ໄດ້ຕັ້ງໃຈ ຫຼື ຕັ້ງໃຈ.
  • Unbounded Consumption: ການໂຫຼດເກີນຂະໜາດເນື່ອງຈາກ Prompt ທີ່ຍາວເກີນໄປ ຫຼື ການຮ້ອງຂໍຈຳນວນມະຫາສານ.

ສິ່ງທີ່ຕ້ອງປົກປ້ອງຢູ່ຝັ່ງຂາອອກ (Output)

  • Hallucination: ຄວາມສ່ຽງທີ່ LLM (Large Language Model) ສ້າງຂໍ້ມູນທີ່ບໍ່ເປັນຄວາມຈິງຂຶ້ນມາດ້ວຍຄວາມໝັ້ນໃຈ.
  • Improper Output Handling: ກໍລະນີທີ່ຂໍ້ຄວາມທີ່ສ້າງຂຶ້ນຖືກສົ່ງຕໍ່ໃຫ້ Code ຫຼື SQL ໂດຍກົງ ເຊິ່ງກໍ່ໃຫ້ເກີດການ Injection.
  • System Prompt Leakage: ບັນຫາທີ່ເນື້ອໃນຂອງ System Prompt ຫຼຸດອອກໄປໃນຂໍ້ຄວາມຕອບກັບ.

ໃນການປະຕິບັດເພື່ອຈັດລະບຽບ, ຄວນເລີ່ມຈາກການແຕ້ມແຜນວາດ Data Flow ຂອງແອັບພລິເຄຊັນຕົນເອງ ແລະ ກວດສອບແຕ່ລະຈຸດເຊື່ອມຕໍ່ລະຫວ່າງ "User Input → LLM → External System". ຖ້າຫາກນຳເອົາໄພຄຸກຄາມຂ້າງເທິງມາປັບໃຊ້ໃນແຕ່ລະຈຸດເຊື່ອມຕໍ່, ລະດັບຄວາມສຳຄັນຈະປາກົດອອກມາເອງໂດຍທຳມະຊາດ. OWASP LLM Top 10 ມີຄຸນຄ່າສູງໃນການນຳມາອ້າງອີງເປັນຈຸດເລີ່ມຕົ້ນຂອງການຈັດລະບຽບນີ້.

ໃນພາກຕໍ່ໄປ, ພວກເຮົາຈະກ້າວໄປສູ່ຂັ້ນຕອນການກວດສອບສະຖານະປັດຈຸບັນຂອງແອັບພລິເຄຊັນທີ່ມີຢູ່.

ການເຂົ້າໃຈສະຖານະປັດຈຸບັນຂອງແອັບ LLM ທີ່ມີຢູ່

ກ່ອນທີ່ຈະເລີ່ມຕົ້ນອອກແບບ Guardrail, ການເຂົ້າໃຈ "ຈຸດທີ່ຕັ້ງຢູ່" ຂອງແອັບພລິເຄຊັນທີ່ມີຢູ່ນັ້ນແມ່ນສິ່ງທີ່ຂາດບໍ່ໄດ້. ຖ້າຫາກດຳເນີນການພັດທະນາໂດຍປ່ອຍໃຫ້ຈຸດບອດໃນການອອກແບບຄົງຢູ່, ມັນຈະເຮັດໃຫ້ເກີດການແກ້ໄຂງານຂະໜາດໃຫຍ່ໃນຂະບວນການຫຼັງຈາກນັ້ນໄດ້ງ່າຍ. ກ່ອນອື່ນໝົດ, ໃຫ້ທຳການກວດສອບສະຖານະປັດຈຸບັນ ແລະ ຈຳກັດຂອບເຂດບັນຫາທີ່ສຳຄັນ.

ຈຸດສຳຄັນທີ່ຄວນກວດສອບ

  • ເສັ້ນທາງການນຳເຂົ້າ ແລະ ສົ່ງອອກຂໍ້ມູນ (Input/Output): ໃຫ້ແຕ້ມແຜນວາດສະແດງໃຫ້ເຫັນວ່າ ການປ້ອນຂໍ້ມູນຂອງຜູ້ໃຊ້ເຂົ້າໄປລວມກັບ System Prompt ແນວໃດ ແລະ ຜົນການຄົ້ນຫາຈາກ RAG ຖືກນຳມາປະກອບເຂົ້າໃນ Prompt ຢູ່ຈຸດໃດ
  • ສະຖານະການນຳໃຊ້ Context Window: ໃນກໍລະນີທີ່ມີປະຫວັດການສົນທະນາ, ຜົນລັດຈາກເຄື່ອງມື ແລະ ເອກະສານພາຍນອກປົນກັນຢູ່, ມັນມັກຈະກາຍເປັນເສັ້ນທາງສຳລັບການເຮັດ Indirect Injection ໄດ້ງ່າຍ
  • ການມີຢູ່ຂອງ Log: ຖ້າຫາກບໍ່ມີການບັນທຶກຂໍ້ມູນການປ້ອນເຂົ້າ, ການສົ່ງອອກ ແລະ ການຕອບສະໜອງຂອງ Model, ຈະບໍ່ສາມາດກວດສອບພາຍຫຼັງໄດ້ວ່າເກີດ Hallucination ຫຼື ການປະມວນຜົນຜົນລັດທີ່ບໍ່ເໝາະສົມຂຶ້ນເມື່ອໃດ
  • ຂອບເຂດສິດທິ (Permission Scope): ກວດສອບວ່າສິດທິທີ່ AI ແບບ Agent ມີຕໍ່ API ຫຼື ຖານຂໍ້ມູນນັ້ນເປັນສິດທິທີ່ຈຳເປັນຂັ້ນຕ່ຳແລ້ວຫຼືບໍ່. ການໃຫ້ສິດທິ Agent ຫຼາຍເກີນໄປຈະເຮັດໃຫ້ຄວາມສ່ຽງເພີ່ມທະວີຂຶ້ນເລື້ອຍໆ

ວິທີການດຳເນີນການກວດສອບ

ໃຫ້ທຳການທົບທວນ Codebase ທີ່ມີຢູ່, ລະບຸເນື້ອຫາຂອງ System Prompt, ຄວາມຖີ່ໃນການອັບເດດ ແລະ ຜູ້ເບິ່ງແຍງລະບົບ. ພ້ອມດຽວກັນນັ້ນ, ໃຫ້ກວດສອບວ່າການປ້ອນຂໍ້ມູນຈາກຜູ້ໃຊ້ຖືກນຳໄປເຊື່ອມຕໍ່ກັບ Prompt ໂດຍບໍ່ມີການກວດສອບ (Validation) ຫຼືບໍ່. ໃນຂັ້ນຕອນນີ້, ມັກຈະພົບເຫັນເສັ້ນທາງການບຸກລຸກຂອງ Prompt Injection ຫຼາຍກໍລະນີ.

ຖ້າຫາກມີ Log ຢູ່ແລ້ວ, ໃຫ້ທຳການສຸ່ມຕົວຢ່າງການສົນທະນາໃນອະດີດເພື່ອສະກັດຮູບແບບຜົນລັດທີ່ມີບັນຫາອອກມາ. ຖ້າຫາກຍັງບໍ່ມີ Log, ໃຫ້ຈັດລຳດັບຄວາມສຳຄັນໃນການພັດທະນາລະບົບການບັນທຶກ Log ການປ້ອນເຂົ້າ-ອອກຂັ້ນພື້ນຖານກ່ອນ. ການອອກແບບ Guardrail ໂດຍບໍ່ເຂົ້າໃຈສະຖານະປັດຈຸບັນ ມີຄວາມສ່ຽງສູງທີ່ຈະເຮັດໃຫ້ມອງຂ້າມຈຸດທີ່ຄວນປົກປ້ອງໄປ.

ຂັ້ນຕອນການນຳໃຊ້ AI Guardrails

ການອອກແບບ Guardrail ຈະສາມາດນຳໄປຂຽນເປັນໂຄ້ດໄດ້ ກໍຕໍ່ເມື່ອມີການກຳນົດໃຫ້ຊັດເຈນເສຍກ່ອນວ່າ "ຈະປົກປ້ອງຫຍັງ". ໃນພາກນີ້, ພວກເຮົາຈະອະທິບາຍຕາມລຳດັບ 3 ຂັ້ນຕອນ ຕັ້ງແຕ່ການກຳນົດ Threat Model ໄປຈົນເຖິງການຈັດຕັ້ງປະຕິບັດ Guard ສຳລັບ Input ແລະ Output. ເຖິງແມ່ນວ່າແຕ່ລະຂັ້ນຕອນຈະເບິ່ງຄືວ່າເປັນອິດສະຫຼະຕໍ່ກັນ, ແຕ່ຂໍໃຫ້ຈື່ໄວ້ວ່າຂະບວນການນີ້ເປັນຂະບວນການແບບວົນຊ້ຳ (Iterative process) ທີ່ການອອກແບບໃນຂັ້ນຕອນຫຼັງອາດສົ່ງຜົນໃຫ້ຕ້ອງກັບມາທົບທວນຂັ້ນຕອນກ່ອນໜ້ານັ້ນຄືນໃໝ່.

Step 1: ການກຳນົດຮູບແບບໄພຄຸກຄາມ

ຂັ້ນຕອນທຳອິດຂອງການຈັດຕັ້ງປະຕິບັດ Guardrail ແມ່ນການສ້າງ Threat Model ໂດຍການຈັດລະບຽບເປົ້າໝາຍທີ່ຕ້ອງປົກປ້ອງ ແລະ ເສັ້ນທາງການໂຈມຕີ. ການວາງຟິວເຕີຊ້ອນກັນໂດຍບໍ່ມີການອອກແບບມາກ່ອນ ມີຄວາມສ່ຽງສູງທີ່ຈະເຮັດໃຫ້ເບິ່ງຂ້າມຊ່ອງໂຫວ່ທີ່ສຳຄັນ.

ກ່ອນອື່ນໝົດ, ໃຫ້ກວດສອບເສັ້ນທາງການປ້ອນຂໍ້ມູນທັງໝົດທີ່ແອັບພລິເຄຊັນໄດ້ຮັບ. ບໍ່ພຽງແຕ່ການປ້ອນຂໍ້ມູນໂດຍກົງຈາກຜູ້ໃຊ້ເທົ່ານັ້ນ, ແຕ່ເອກະສານພາຍນອກທີ່ໄດ້ມາຈາກ RAG ແລະ API Response ກໍສາມາດກາຍເປັນພື້ນທີ່ການໂຈມຕີໄດ້ເຊັ່ນກັນ. ນີ້ແມ່ນເສັ້ນທາງຕົ້ນແບບຂອງ Indirect Injection.

ຕໍ່ມາ, ໃຫ້ຈັດປະເພດໄພຂົ່ມຂູ່ໂດຍອີງໃສ່ OWASP LLM Top 10. ລາຍການທີ່ມີຄວາມສຳຄັນສູງມີດັ່ງນີ້:

  • Prompt Injection: ການຂຽນທັບ System Prompt ເພື່ອເຮັດໃຫ້ເກີດການເຮັດວຽກທີ່ບໍ່ໄດ້ຕັ້ງໃຈ
  • Sensitive Information Disclosure: ຂໍ້ມູນສ່ວນຕົວ ຫຼື ຂໍ້ມູນພາຍໃນຖືກລວມຢູ່ໃນ Response
  • Excessive Agency: AI Agent ເອີ້ນໃຊ້ເຄື່ອງມື ຫຼື API ທີ່ບໍ່ໄດ້ຄາດຄິດໄວ້
  • System Prompt Leakage: ເນື້ອໃນຄຳສັ່ງຖືກເປີດເຜີຍຕໍ່ຜູ້ໃຊ້

ໄພຂົ່ມຂູ່ແຕ່ລະຢ່າງຈະຖືກມອບໝາຍຄະແນນຄວາມສ່ຽງ (Risk Score) ໂດຍການນຳເອົາ "ໂອກາດເກີດຂຶ້ນ" ຄູນກັບ "ລະດັບຜົນກະທົບ" ເພື່ອກຳນົດລຳດັບຄວາມສຳຄັນໃນການແກ້ໄຂ. ຖ້າປະຕິບັດຕໍ່ທຸກໄພຂົ່ມຂູ່ໃນລະດັບດຽວກັນ ຈະເຮັດໃຫ້ຕົ້ນທຶນໃນການຈັດຕັ້ງປະຕິບັດເພີ່ມຂຶ້ນ ແລະ ມີແນວໂນ້ມທີ່ຈະບໍ່ສຳເລັດໃນຂັ້ນຕອນ MVP (Minimum Viable Product).

ສຸດທ້າຍ, ໃຫ້ແຕ້ມແຜນວາດ Trust Boundary. ການລະບຸໃຫ້ຊັດເຈນວ່າອົງປະກອບໃດທີ່ເຊື່ອຖືໄດ້ ແລະ ສ່ວນໃດເປັນເຂດທີ່ບໍ່ໜ້າເຊື່ອຖື ຈະຊ່ວຍໃຫ້ການອອກແບບ Input Guardrail ໃນຂັ້ນຕອນທີ 2 ເປັນຕົ້ນໄປມີຄວາມຊັດເຈນຍິ່ງຂຶ້ນ.

Step 2: Guardrails ສຳລັບການປ້ອນຂໍ້ມູນ

Input Guardrails ແມ່ນຊັ້ນປ້ອງກັນທີ່ກວດຈັບ ແລະ ສະກັດກັ້ນຄຳຮ້ອງຂໍທີ່ເປັນອັນຕະລາຍກ່ອນທີ່ການປ້ອນຂໍ້ມູນຂອງຜູ້ໃຊ້ຈະໄປເຖິງ LLM. ເນື່ອງຈາກສາມາດຢຸດຄວາມສ່ຽງຂອງ Prompt Injection ແລະ ການຮົ່ວໄຫຼຂອງຂໍ້ມູນລັບໄດ້ຕັ້ງແຕ່ຕົ້ນທາງ, ມັນຈຶ່ງມີບຸລິມະສິດໃນການຈັດຕັ້ງປະຕິບັດສູງ.

ຫົວຂໍ້ການກວດສອບຫຼັກສາມາດແບ່ງອອກໄດ້ເປັນ 4 ຢ່າງດັ່ງນີ້:

  • ການກວດຈັບ Direct Injection: ກວດຈັບຮູບແບບການ Jailbreak ທີ່ເປັນແບບຢ່າງ ເຊັ່ນ: "ໃຫ້ລະເລີຍຄຳສັ່ງກ່ອນໜ້ານີ້" ຫຼື "ໃຫ້ສະແດງ System Prompt ອອກມາ" ໂດຍໃຊ້ Regular Expression ຫຼື Semantic Search.
  • ມາດຕະການປ້ອງກັນ Indirect Injection: ຄຳສັ່ງທີ່ເປັນອັນຕະລາຍອາດຈະປົນມາໃນເອກະສານພາຍນອກທີ່ໄດ້ມາຈາກ RAG ຫຼື ຄ່າທີ່ສົ່ງກັບມາຈາກການເອີ້ນໃຊ້ Tool. ເນື້ອຫາທີ່ໄດ້ມາຄວນຖືກ Sanitized ກ່ອນທີ່ຈະນຳໄປໃສ່ໃນ Context Window.
  • ຕົວຕອງ PII ແລະ ຂໍ້ມູນລັບ: ກວດຈັບທີ່ຢູ່ອີເມວ, ເລກບັດເຄຣດິດ, ID ພາຍໃນບໍລິສັດ ແລະ ອື່ນໆ ໂດຍໃຊ້ Pattern Matching ເພື່ອປິດບັງ (Mask) ຫຼື ປະຕິເສດ.
  • ການຈຳກັດຄວາມຍາວຂອງ Token ແລະ ອັດຕາການໃຊ້ງານ: ເພື່ອປ້ອງກັນການໃຊ້ຊັບພະຍາກອນແບບບໍ່ຈຳກັດ, ຄວນຕັ້ງຄ່າຂີດຈຳກັດຂອງ Input Token ແລະ ການທຳງານຂອງ Throttling ໄວ້ທີ່ຊັ້ນ API Gateway.

ສຳລັບວິທີການຈັດຕັ້ງປະຕິບັດ, ການອ້າງອີງຕາມການຈັດປະເພດ LLM Top 10 ທີ່ເຜີຍແຜ່ໂດຍ OWASP, ຈາກນັ້ນເລີ່ມຮັບມືກັບຮູບແບບທີ່ມີຄວາມສ່ຽງສູງດ້ວຍ Rule-based ກ່ອນ, ແລະ ໃນກໍລະນີທີ່ການຕັດສິນໃຈເຮັດໄດ້ຍາກ ຄວນໃຊ້ SLM ຂະໜາດນ້ອຍ ຫຼື Model ການຈັດປະເພດສະເພາະທາງມາເສີມຈະມີຄວາມເປັນໄປໄດ້ຫຼາຍກວ່າ. ການໃຊ້ Framework ສຳລັບ LLM Red Teaming ເຊັ່ນ PyRIT ຫຼື Garak ເພື່ອເຮັດໃຫ້ການທົດສອບຂອບເຂດ (Boundary Test) ເປັນອັດຕະໂນມັດ ຈະຊ່ວຍໃຫ້ສາມາດກວດສອບຊ່ອງໂຫວ່ຂອງກົດລະບຽບໄດ້ຢ່າງຕໍ່ເນື່ອງ.

ຂໍ້ຄວນລະວັງຄື Input Guardrails ມັກຈະຕົກຢູ່ໃນສະພາວະປ້ອງກັນເກີນຄວາມຈຳເປັນ (Over-guarding) ຖ້າຕັ້ງເປົ້າໝາຍໃຫ້ມີການກວດຈັບຜິດພາດເປັນສູນ. ຄວນປັບລະດັບ Threshold ເປັນຂັ້ນຕອນ ແລະ ອອກແບບວົງຈອນການດຳເນີນງານທີ່ນຳເອົາບັນທຶກການສະກັດກັ້ນທີ່ຜິດພາດ (False-positive logs) ມາລວມເຂົ້າໃນຊຸດການປະເມີນຜົນຕັ້ງແຕ່ໄລຍະເລີ່ມຕົ້ນ. ໃນຂັ້ນຕອນທີ 3 ຕໍ່ໄປ, ພວກເຮົາຈະອະທິບາຍກ່ຽວກັບການປ້ອງກັນທາງດ້ານ Output ຫຼັງຈາກທີ່ LLM ໄດ້ສ້າງເນື້ອຫາອອກມາແລ້ວ.

Step 3: Guardrails ສຳລັບການສະແດງຜົນ

ການສົ່ງຄືນຄຳຕອບທີ່ LLM ສ້າງຂຶ້ນໂດຍກົງນັ້ນ ມີຄວາມສ່ຽງບໍ່ຕ່າງຫຍັງກັບ Input Guard. Output Guardrails ເປັນດ່ານສຸດທ້າຍໃນການກວດສອບ "ສິ່ງທີ່ໂມເດວສົ່ງຄືນ" ເພື່ອບລັອກ ຫຼື ປ່ຽນແປງເນື້ອຫາທີ່ມີບັນຫາ.

ລາຍການກວດສອບຫຼັກ

  • ການກວດຫາ Hallucination (ການກວດສອບຄວາມຖືກຕ້ອງ): ໃນກໍລະນີທີ່ໃຊ້ RAG, ໃຫ້ກວດສອບວ່າຄຳຕອບມີຄວາມຂັດແຍ່ງກັບເນື້ອຫາໃນເອກະສານທີ່ດຶງມາຫຼືບໍ່ ໂດຍອີງໃສ່ການຄົ້ນຫາແບບ Semantic. ຄຳຕອບທີ່ມີຄະແນນຕ່ຳກວ່າເກນທີ່ກຳນົດໄວ້ ຈະຖືກປ່ຽນໄປໃຊ້ຄຳຕອບສຳຮອງວ່າ "ບໍ່ສາມາດຢືນຢັນໄດ້".
  • ການປ້ອງກັນຂໍ້ມູນຮົ່ວໄຫຼ: ໃຊ້ Regular Expression ຫຼື NER (ການສະກັດເອົາຊື່ສະເພາະ) ເພື່ອກວດຫາທີ່ຢູ່ອີເມວ, ເລກບັດເຄຣດິດ, URL ພາຍໃນ ແລະ ອື່ນໆ ເພື່ອເຮັດການ Masking ຫຼື ລຶບຂໍ້ມູນເຫຼົ່ານັ້ນອອກ.
  • ການກັ່ນຕອງເນື້ອຫາທີ່ເປັນອັນຕະລາຍ: ໃຊ້ໂມເດວການຈັດປະເພດເພື່ອປະເມີນຄວາມຮຸນແຮງ, ຄຳເວົ້າທີ່ແບ່ງແຍກ, ແລະ ຂໍ້ມູນທີ່ຜິດກົດໝາຍ ໂດຍເລືອກລະຫວ່າງການບລັອກ ຫຼື ການສົ່ງຄືນພ້ອມຄຳເຕືອນຕາມຄະແນນທີ່ໄດ້.
  • ການກວດຫາການຮົ່ວໄຫຼຂອງ System Prompt: ກວດສອບດ້ວຍການຈັບຄູ່ສະຕຣິງ (String match) ວ່າໃນຜົນລັອບມີບາງສ່ວນຂອງ System Prompt ປົນຢູ່ຫຼືບໍ່. ການຮົ່ວໄຫຼຂອງ Prompt (Prompt leaking) ຍັງເປັນສັນຍານຂອງການເຮັດ Jailbreak ທີ່ສຳເລັດອີກດ້ວຍ.
  • ການກວດສອບ JSON Schema: ສຳລັບ Endpoint ທີ່ຄາດຫວັງຜົນລັອບທີ່ມີໂຄງສ້າງ, ໃຫ້ກວດສອບ (Validate) ວ່າຄ່າທີ່ສົ່ງຄືນມາສອດຄ່ອງກັບ Schema ທີ່ກຳນົດໄວ້ຫຼືບໍ່ ແລະ ຈັດການກັບຮູບແບບທີ່ບໍ່ຖືກຕ້ອງໃຫ້ເປັນ Error.

ຂໍ້ຄວນລະວັງໃນການຈັດຕັ້ງປະຕິບັດ

Output Guard ມີຜົນໂດຍກົງຕໍ່ Latency. ການຈັດລຽງການກວດສອບຫຼາຍຢ່າງຕໍ່ກັນແບບອະນຸກົມ (Serial) ມັກຈະເຮັດໃຫ້ເວລາໃນການຕອບສະໜອງເພີ່ມທະວີຂຶ້ນເລື້ອຍໆ, ດັ່ງນັ້ນ ການຈັດໃຫ້ການກວດສອບແບບ Rule-based ທີ່ມີນ້ຳໜັກເບົາເຮັດວຽກກ່ອນ ແລະ ໃຊ້ການປະເມີນຜົນດ້ວຍໂມເດວ ML ທີ່ມີນ້ຳໜັກຫຼາຍໃນການວິເຄາະ Log ແບບບໍ່ຂະໜານ (Asynchronous) ຈຶ່ງເປັນໂຄງສ້າງທີ່ມີປະສິດທິພາບ. ນອກຈາກນີ້, ການບັນທຶກເຫດຜົນຂອງການຕັດສິນໃຈບລັອກໄວ້ໃນ Log ຈະຊ່ວຍໃຫ້ເຂົ້າໃຈແນວໂນ້ມຂອງການບລັອກທີ່ຜິດພາດໃນການທົດສອບ Regression ຢ່າງຕໍ່ເນື່ອງທີ່ກ່າວເຖິງໃນພາຍຫຼັງໄດ້ງ່າຍຂຶ້ນ.

ການອອກແບບການດຳເນີນງານ ແລະ ການປະເມີນຜົນ

Guardrails ບໍ່ແມ່ນສິ່ງທີ່ເຮັດແລ້ວຈົບໄປ ແຕ່ການປະເມີນຜົນ ແລະ ວົງຈອນການປັບປຸງຢ່າງຕໍ່ເນື່ອງຈະເປັນສິ່ງທີ່ຮັກສາຄຸນນະພາບໄວ້. ດ້ວຍການອັບເກຣດເວີຊັນຂອງໂມເດວ ແລະ ການປະກົດຕົວຂອງຮູບແບບການໂຈມຕີໃໝ່ໆ, ອາດຈະເກີດກໍລະນີທີ່ຮົ້ວກັ້ນຄວາມປອດໄພທີ່ເຄີຍໃຊ້ງານໄດ້ໃນມື້ວານນີ້ ບໍ່ສາມາດໃຊ້ງານໄດ້ໃນມື້ນີ້. ໃນພາກນີ້, ພວກເຮົາຈະຈັດລະບຽບກົນໄກທີ່ຈຳເປັນໃນໄລຍະການດຳເນີນງານ ເລີ່ມຕັ້ງແຕ່ການອອກແບບຊຸດການປະເມີນຜົນ ໄປຈົນເຖິງການສ້າງ Dashboard ສຳລັບຕິດຕາມກວດກາ.

ຊຸດການປະເມີນຜົນ ແລະ ການທົດສອບ Regression ແບບຕໍ່ເນື່ອງ

Guardrails ບໍ່ແມ່ນສິ່ງທີ່ຕິດຕັ້ງເທື່ອດຽວແລ້ວຈົບ. ເນື່ອງຈາກພຶດຕິກຳຈະປ່ຽນແປງທຸກຄັ້ງທີ່ມີການອັບເດດ Model ຫຼື ປ່ຽນແປງ Prompt, ການທົດສອບ Regression ຢ່າງຕໍ່ເນື່ອງ ຈຶ່ງເປັນສິ່ງທີ່ຂາດບໍ່ໄດ້.

ຊຸດການປະເມີນຜົນຄວນປະກອບດ້ວຍ 3 ໝວດໝູ່ດັ່ງນີ້:

  • ກຸ່ມປົກກະຕິ (Normal): ກຸ່ມຄຳຮ້ອງຂໍທົ່ວໄປທີ່ຜູ້ໃຊ້ສົ່ງເຂົ້າມາ. ໃຊ້ເພື່ອຊອກຫາການສະກັດກັ້ນທີ່ຜິດພາດ (False Positive).
  • ກຸ່ມໂຈມຕີ (Attack): ກຸ່ມກໍລະນີທີ່ກວມເອົາຕົວຢ່າງທີ່ເປັນຕົວແທນຂອງ Prompt Injection, Jailbreak ແລະ ການທົດສອບຂອບເຂດ (Boundary Test).
  • ກຸ່ມພື້ນທີ່ສີເທົາ (Grey Zone): ການປ້ອນຂໍ້ມູນ ແລະ ການສະແດງຜົນທີ່ບໍ່ຊັດເຈນ ເຊິ່ງຢູ່ໃກ້ກັບຂອບເຂດຂອງການອະນຸຍາດ ຫຼື ປະຕິເສດ. ເປັນກຸ່ມທີ່ຮັບຮູ້ຜົນກະທົບຈາກການປ່ຽນແປງນະໂຍບາຍໄດ້ລະອຽດອ່ອນທີ່ສຸດ.

ຂະໜາດຂອງຊຸດການປະເມີນຜົນບໍ່ຈຳເປັນຕ້ອງໃຫຍ່ ແຕ່ສິ່ງທີ່ສຳຄັນຄື ຕ້ອງບັນຈຸແຕ່ລະໝວດໝູ່ໃຫ້ເທົ່າທຽມກັນ. ຖ້າຫາກເນັ້ນໜັກແຕ່ກຸ່ມໂຈມຕີພຽງຢ່າງດຽວ ຈະເຮັດໃຫ້ບໍ່ສາມາດເຫັນອັດຕາການສະກັດກັ້ນທີ່ຜິດພາດຂອງກຸ່ມປົກກະຕິໄດ້.

ການທົດສອບ Regression ຢ່າງຕໍ່ເນື່ອງຈະຖືກນຳໄປລວມເຂົ້າໃນ CI/CD ຂະບວນການ ຫຼື Pipeline. ໂດຍສະເພາະແລ້ວ ຂັ້ນຕອນຕໍ່ໄປນີ້ແມ່ນເປັນທີ່ນິຍົມ:

  1. ດຳເນີນການປະເມີນຜົນໂດຍອັດຕະໂນມັດໃນເວລາທີ່ເຮັດ Pull Request.
  2. ວັດແທກອັດຕາຄວາມສຳເລັດຂອງການໂຈມຕີ (ASR) ແລະ ອັດຕາການສະກັດກັ້ນທີ່ຜິດພາດ, ຖ້າຫາກເກີນຄ່າ Threshold ທີ່ກຳນົດໄວ້ ຈະເຮັດການບລັອກການ ລວມ ຫຼື Merge.
  3. ສະກັດຮູບແບບການໂຈມຕີໃໝ່ຈາກ Log ການໃຊ້ງານຈິງໃນແຕ່ລະອາທິດ ແລະ ເພີ່ມເຂົ້າໃນຊຸດການປະເມີນຜົນ.

ຊຸດການປະເມີນຜົນຕ້ອງໄດ້ຮັບການປະຕິບັດໃນຖານະ "ເອກະສານທີ່ມີຊີວິດ". ເນື່ອງຈາກວິທີການໂຈມຕີມີການພັດທະນາຢູ່ສະເໝີ, ການດຳເນີນງານໂດຍການອ້າງອີງເຖິງ Benchmark ທີ່ເປີດເຜີຍເຊັ່ນ HarmBench ຢ່າງສະໝໍ່າສະເໝີຈຶ່ງເປັນສິ່ງທີ່ຄວນເຮັດ.

ນອກຈາກນີ້, ໃນການປະເມີນຜົນ Output Guardrails ທີ່ລວມເຖິງການກວດສອບ Grounding, ການເພີ່ມຄະແນນຄວາມສອດຄ່ອງກັບຜົນການຄົ້ນຫາຂອງ RAG ເຂົ້າໄປໃນດັດຊະນີຊີ້ວັດ ຈະຊ່ວຍໃຫ້ສາມາດຕິດຕາມຜົນກະທົບໃນການຍັບຍັ້ງການເກີດ Hallucination ໄດ້ຢ່າງເປັນຮູບປະທຳຫຼາຍຂຶ້ນ.

ການອອກແບບ Dashboard ແລະ ການແຈ້ງເຕືອນ

ເພື່ອຮັກສາປະສິດທິພາບຂອງ Guardrail ໃຫ້ຍືນຍົງ, ຈຳເປັນຕ້ອງມີກົນໄກໃນການເບິ່ງເຫັນສະຖານະການດຳເນີນງານ ແລະ ກວດຈັບຄວາມຜິດປົກກະຕິໄດ້ໃນທັນທີ. ເຖິງແມ່ນວ່າການຕັ້ງຄ່າຈະຜ່ານການທົດສອບດ້ວຍຊຸດຂໍ້ມູນປະເມີນຜົນແລ້ວ, ແຕ່ໃນການໃຊ້ງານຈິງ (Production traffic) ກໍອາດຈະພົບຮູບແບບທີ່ບໍ່ຄາດຄິດເກີດຂຶ້ນໄດ້. Dashboard ແລະ Alert ຈຶ່ງເຮັດໜ້າທີ່ເປັນ "ສາຍຕາໃນການດຳເນີນງານ".

ຕົວຊີ້ວັດຫຼັກທີ່ຄວນຕິດຕາມ (Monitoring)

  • ອັດຕາການສະກັດກັ້ນ (Block Rate): ອັດຕາສ່ວນທີ່ Guardrail ທາງຂາເຂົ້າ ແລະ ຂາອອກເຮັດວຽກ. ຖ້າເພີ່ມຂຶ້ນຢ່າງກະທັນຫັນອາດເປັນສັນຍານຂອງການໂຈມຕີ, ຖ້າຫຼຸດລົງຢ່າງກະທັນຫັນອາດເປັນໄປໄດ້ວ່າເກີດຄວາມຜິດພາດໃນການຕັ້ງຄ່າ.
  • ອັດຕາການກວດຈັບຜິດພາດ (False Positive Rate): ອັດຕາສ່ວນທີ່ຄຳຮ້ອງຂໍປົກກະຕິຖືກສະກັດກັ້ນ. ເປັນຕົວຊີ້ວັດໂດຍກົງຕໍ່ການຫຼຸດລົງຂອງ UX.
  • ການກະຈາຍຂອງ Latency (P50 / P95 / P99): ເພື່ອເຂົ້າໃຈຜົນກະທົບທີ່ການປະມວນຜົນຂອງ Guardrail ມີຕໍ່ເວລາໃນການຕອບສະໜອງ.
  • ຈຳນວນການກວດຈັບ Hallucination: ທ່າອ່ຽງຂອງຈຳນວນຄັ້ງທີ່ການກວດສອບ Grounding ຖືກກະຕຸ້ນ.
  • ຈຳນວນການກວດຈັບ Prompt Injection: ສະຫຼຸບແຍກຕາມປະເພດ Direct Injection ແລະ Indirect Injection.

ນະໂຍບາຍພື້ນຖານໃນການອອກແບບ Alert

ມັກຈະມີການຕັ້ງຄ່າ Threshold ໂດຍອີງໃສ່ ອັດຕາການປ່ຽນແປງແບບສຳພັດທຽບກັບຄ່າສະເລ່ຍເຄື່ອນທີ່ (Moving Average) ໃນຮອບ 7 ວັນທີ່ຜ່ານມາ ແທນທີ່ຈະໃຊ້ຄ່າຄົງທີ່ (Absolute value). ວິທີນີ້ຈະຊ່ວຍຫຼຸດຜ່ອນການແຈ້ງເຕືອນທີ່ຜິດພາດຈາກການປ່ຽນແປງຕາມທຳມະຊາດໃນແຕ່ລະມື້ ຫຼື ຊ່ວງເວລາໄດ້.

ຕົວຢ່າງການແຈ້ງເຕືອນທີ່ແນະນຳ:

  • ກໍລະນີອັດຕາການສະກັດກັ້ນເກີນ 3 ເທົ່າຂອງຄ່າສະເລ່ຍເຄື່ອນທີ່ → ແຈ້ງເຕືອນທັນທີ (ຜ່ານ PagerDuty ແລະ ອື່ນໆ)
  • ກໍລະນີອັດຕາການກວດຈັບຜິດພາດເກີນລະດັບທີ່ກຳນົດ → ເພີ່ມເຂົ້າໃນຄິວການແກ້ໄຂໃນວັນເຮັດວຽກຖັດໄປ
  • ກໍລະນີ Latency P95 ເກີນ SLA Threshold → ເລີ່ມຂະບວນການ On-call

ແນວຄວາມຄິດໃນການຈັດໂຄງສ້າງ Dashboard

ນຳໃຊ້ເຄື່ອງມືທີ່ຮອງຮັບ AI Observability ເຊັ່ນ Grafana ຫຼື Datadog, ແລະ ສ້າງໂຄງສ້າງທີ່ສາມາດ Drill-down ແຍກຕາມ Tenant ຫຼື Endpoint ໄດ້. ໃນ Log ຕ້ອງລະບຸ Request ID, Tenant ID ແລະ ເຫດຜົນໃນການຕັດສິນໃຈຂອງ Guardrail ໄວ້ສະເໝີ ເພື່ອໃຫ້ງ່າຍຕໍ່ການກວດສອບສາເຫດໃນພາຍຫຼັງ. ຫາກມີຂໍ້ມູນສ່ວນບຸກຄົນລວມຢູ່, ຕ້ອງດຳເນີນການ Masking ຂໍ້ມູນໃນ Log ໃຫ້ຮຽບຮ້ອຍ.

ຂໍ້ຜິດພາດທີ່ພົບເລື້ອຍ ແລະ ວິທີແກ້ໄຂ

ກັບດັກທີ່ມັກພົບເລື້ອຍໃນການນຳໃຊ້ Guardrail ສາມາດສະຫຼຸບໄດ້ເປັນສອງປະການໃຫຍ່ ຄື: "ການຕັດການເຮັດວຽກທີ່ຜິດພາດເນື່ອງຈາກການທົດສອບບໍ່ພຽງພໍ" ແລະ "ປະສົບການຜູ້ໃຊ້ (UX) ທີ່ຫຼຸດລົງເນື່ອງຈາກການປ້ອງກັນທີ່ຫຼາຍເກີນໄປ". ທັງສອງກໍລະນີມັກຈະຖືກມອງຂ້າມໃນຂັ້ນຕອນການອອກແບບ ແລະ ມັກຈະປາກົດໃຫ້ເຫັນຫຼັງຈາກການນຳໃຊ້ງານຈິງເທົ່ານັ້ນ. ໃນຫົວຂໍ້ H3 ຕໍ່ໄປນີ້, ພວກເຮົາຈະເຈາະເລິກເຖິງຮູບແບບຄວາມຜິດພາດແຕ່ລະຢ່າງ ແລະ ມາດຕະການແກ້ໄຂທີ່ເປັນຮູບປະທຳ.

ການສະກັດກັ້ນຜິດພາດເນື່ອງຈາກການທົດສອບບໍ່ພຽງພໍ

ມີລາຍງານກໍລະນີທີ່ການນຳໃຊ້ Guardrail ເຂົ້າສູ່ລະບົບການຜະລິດຢ່າງຮີບດ່ວນ ສົ່ງຜົນໃຫ້ມີການສະກັດກັ້ນຄຳຮ້ອງຂໍຂອງຜູ້ໃຊ້ປົກກະຕິຢ່າງຜິດພາດ. ສາເຫດສ່ວນໃຫຍ່ແມ່ນມາຈາກ "ຂໍ້ມູນການທົດສອບບໍ່ພຽງພໍ" ແລະ "ການລະເລີຍການທົດສອບຂອບເຂດ (Boundary Testing)".

ຮູບແບບທີ່ມັກເກີດການສະກັດກັ້ນຜິດພາດ

  • ຕົວກອງປະເພດ Keyword Match ປະຕິເສດໂດຍບໍ່ສົນໃຈບໍລິບົດ (ຕົວຢ່າງ: ບລັອກຄຳຖາມປົກກະຕິທີ່ມີຄຳວ່າ "ຄວາມເຈັບປວດ" ໃນການຖາມ-ຕອບທາງການແພດ)
  • ການນຳໃຊ້ກົດເກນທີ່ອີງໃສ່ພາສາອັງກິດໂດຍທີ່ການຮອງຮັບຫຼາຍພາສາຍັງບໍ່ພຽງພໍ ເຮັດໃຫ້ເກີດການກວດພົບຜິດພາດເລື້ອຍໆໃນການປ້ອນຂໍ້ມູນພາສາຍີ່ປຸ່ນ
  • ຕົວກອງການປ້ອນຂໍ້ມູນທີ່ເພີ່ມເຂົ້າມາເພື່ອປ້ອງກັນ RAG Poisoning ສະກັດກັ້ນແມ້ກະທັ້ງຄຳຖາມຄົ້ນຫາປົກກະຕິ

ສາເຫດຮາກເຫງົ້າແມ່ນຄວາມບໍ່ສົມດຸນຂອງຊຸດການປະເມີນຜົນ

ຖ້າຊຸດການປະເມີນຜົນທີ່ສ້າງຂຶ້ນໃນຂັ້ນຕອນ PoC (ການພິສູດແນວຄວາມຄິດ) ເນັ້ນໜັກໄປທີ່ຮູບແບບການໂຈມຕີຫຼາຍເກີນໄປ, ອັດຕາການກວມລວມຂອງລະບົບປົກກະຕິຈະຕ່ຳລົງ. ກໍລະນີຕົວຢ່າງທີ່ພົບເລື້ອຍຄື ການສຸມໃສ່ການປ້ອງກັນ Prompt Injection ຫຼາຍເກີນໄປ ຈົນບໍ່ໄດ້ເກັບກຳຄວາມຫຼາກຫຼາຍຂອງການສົນທະນາຂອງຜູ້ໃຊ້ໃນຊີວິດປະຈຳວັນຢ່າງພຽງພໍ.

ລຳດັບຄວາມສຳຄັນຂອງມາດຕະການປ້ອງກັນ

  1. ກຽມການທົດສອບລະບົບປົກກະຕິໃຫ້ມີຈຳນວນເທົ່າກັບ ຫຼື ຫຼາຍກວ່າລະບົບການໂຈມຕີ — ຕ້ອງເພີ່ມອັດຕາການສະກັດກັ້ນຜິດພາດ (False Positive Rate) ເຂົ້າໄປໃນ KPI ຄວບຄູ່ກັບອັດຕາຄວາມສຳເລັດຂອງການໂຈມຕີ / ASR (Attack Success Rate) ສະເໝີ
  2. ກວດສອບລ່ວງໜ້າດ້ວຍ Shadow Mode — ໃຫ້ Guardrail ເຮັດວຽກຂະໜານໄປກັບ Traffic ຂອງລະບົບການຜະລິດ ແລະ ກວດສອບບັນທຶກການສະກັດກັ້ນດ້ວຍຕົນເອງກ່ອນທີ່ຈະປ່ຽນຜ່ານ
  3. ເຮັດໃຫ້ການທົດສອບຂອບເຂດເປັນອັດຕະໂນມັດ — ໃຊ້ LLM Red Teaming Framework ເຊັ່ນ PyRIT ຫຼື Garak ເພື່ອສ້າງ ແລະ ກວດສອບ Edge Case ຢ່າງຕໍ່ເນື່ອງ

ການສະກັດກັ້ນຜິດພາດຈະສົ່ງຜົນເສຍຕໍ່ປະສົບການຂອງຜູ້ໃຊ້ໃນທັນທີ. ເນື່ອງຈາກມັນເປັນສິ່ງທີ່ຄູ່ກັນກັບບັນຫາ "ການປ້ອງກັນເກີນຄວາມຈຳເປັນ" (Over-guarding) ທີ່ຈະກ່າວເຖິງໃນພາກຕໍ່ໄປ, ການບໍລິຫານຈັດການທັງສອງຢ່າງນີ້ຄວບຄູ່ກັນຕັ້ງແຕ່ຂັ້ນຕອນການອອກແບບ KPI ຈຶ່ງມີຄວາມສຳຄັນຫຼາຍ.

UX ຫຼຸດລົງເນື່ອງຈາກການປ້ອງກັນຫຼາຍເກີນໄປ

ຖ້າຕັ້ງຄ່າ Guardrail ເຂັ້ມງວດເກີນໄປ ຈະເຮັດໃຫ້ການໃຊ້ງານຂອງຜູ້ໃຊ້ທີ່ຖືກຕ້ອງຖືກສະກັດກັ້ນ ແລະ ເຮັດໃຫ້ປະສິດທິພາບການໃຊ້ງານຂອງແອັບພລິເຄຊັນຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ. ມີລາຍງານກໍລະນີທີ່ຄວາມຕັ້ງໃຈ "ເພື່ອຄວາມປອດໄພ" ກັບກາຍເປັນສາເຫດທີ່ເຮັດໃຫ້ຜູ້ໃຊ້ເລີກໃຊ້ງານ.

ບັນຫາທົ່ວໄປທີ່ເກີດຈາກການປ້ອງກັນທີ່ຫຼາຍເກີນໄປ

  • ຄຳຖາມທີ່ປະກອບດ້ວຍຄຳສັບສະເພາະທາງດ້ານການແພດ ຫຼື ກົດໝາຍ ຖືກຕັດສິນຜິດວ່າເປັນ "ເນື້ອຫາທີ່ເປັນອັນຕະລາຍ" ເຮັດໃຫ້ຖືກປະຕິເສດການຕອບກັບເລື້ອຍໆ
  • ຄຳຮ້ອງຂໍສ້າງເອກະສານທາງທຸລະກິດທີ່ຖືກຕ້ອງຖືກລະບົບກັ່ນຕອງກັກໄວ້ ເຮັດໃຫ້ຜູ້ໃຊ້ຕ້ອງພະຍາຍາມໃໝ່ຫຼາຍຄັ້ງ
  • ການສົ່ງຂໍ້ຄວາມປະຕິເສດທີ່ບໍ່ຊັດເຈນກັບຄືນໄປ ເຮັດໃຫ້ຜູ້ໃຊ້ບໍ່ສາມາດຕັດສິນໄດ້ວ່າບັນຫາເກີດຈາກຫຍັງ

ສະຖານະການເຫຼົ່ານີ້ມັກຈະເກີດຂຶ້ນເມື່ອຕັ້ງຄ່າ Threshold ຂອງ Prompt Firewall ຕ່ຳເກີນໄປ ຫຼື ເມື່ອນຳກົດລະບຽບຂອງ Guardrail ໄປໃຊ້ໃນລະບົບຈິງໂດຍບໍ່ມີການປັບໃຫ້ເຂົ້າກັບບໍລິບົດຂອງໂດເມນ (Domain context).

ວິທີການຮັບປະກັນຄວາມປອດໄພໄປພ້ອມກັບການຮັກສາ UX

  • ການອອກແບບການຕອບໂຕ້ແບບເປັນຂັ້ນຕອນ: ແທນທີ່ຈະສະກັດກັ້ນທັນທີ ໃຫ້ໃຊ້ "ຂໍ້ຄວາມຢືນຢັນ" ແຊກເຂົ້າໄປກ່ອນ ເພື່ອຫຼຸດຜ່ອນຄວາມຮູ້ສຶກຫງຸດຫງິດໃນກໍລະນີທີ່ເກີດການສະກັດກັ້ນຜິດພາດ
  • ລາຍການອະນຸຍາດສະເພາະໂດເມນ (Domain-specific allowlist): ລົງທະບຽນຄຳສັບ ຫຼື ສຳນວນທີ່ເໝາະສົມກັບບໍລິບົດຂອງວຽກງານໄວ້ໃນລາຍການອະນຸຍາດ ເພື່ອຫຼຸດອັດຕາການກວດພົບທີ່ຜິດພາດ
  • ການລະບຸເຫດຜົນທີ່ປະຕິເສດຢ່າງຊັດເຈນ: ບໍ່ຄວນພຽງແຕ່ບອກວ່າ "ບໍ່ສາມາດຕອບຄຳຮ້ອງຂໍນີ້ໄດ້" ແຕ່ຄວນໃຫ້ຄຳແນະນຳສັ້ນໆເພື່ອໃຫ້ຜູ້ໃຊ້ສາມາດປັບປ່ຽນຄຳຖາມໃໝ່ໄດ້

ໃນຊຸດການປະເມີນຜົນ (Evaluation set) ຕ້ອງມີ "ອັດຕາການສະກັດກັ້ນຄຳຮ້ອງຂໍທີ່ຖືກຕ້ອງຜິດພາດ (False Positive Rate)" ລວມຢູ່ດ້ວຍສະເໝີ ແລະ ຄວນຕິດຕາມກວດກາຄຽງຄູ່ກັບຄະແນນຄວາມປອດໄພ. ຄວາມປອດໄພ ແລະ ຄວາມສະດວກສະບາຍບໍ່ແມ່ນ ການແລກປ່ຽນ ຫຼື Trade-off ແຕ່ສາມາດເຮັດໃຫ້ສົມດູນກັນໄດ້ດ້ວຍການປັບຈູນ Threshold ແລະ ການທົດສອບ Regression ຢ່າງຕໍ່ເນື່ອງ. ໃນການນຳໄປໃຊ້ກັບສະພາບແວດລ້ອມ Multi-tenant ໃນຄັ້ງຕໍ່ໄປ ການອອກແບບຄວາມສົມດູນນີ້ຈະມີຄວາມຊັບຊ້ອນຫຼາຍຂຶ້ນ ເນື່ອງຈາກແຕ່ລະ Tenant ມີລະດັບຄວາມສ່ຽງທີ່ຍອມຮັບໄດ້ແຕກຕ່າງກັນ.

ການນຳໃຊ້: ການປະຍຸກໃຊ້ກັບສະພາບແວດລ້ອມ Multi-tenant

ຖ້ານຳເອົາກາດເລວ (Guardrails) ທີ່ອອກແບບມາສຳລັບຜູ້ໃຊ້ລາຍດຽວ (Single-tenant) ໄປໃຊ້ໃນສະພາບແວດລ້ອມແບບຫຼາຍຜູ້ໃຊ້ (Multi-tenant) ໂດຍກົງ, ມັນຈະເຮັດໃຫ້ນະໂຍບາຍຕ່າງໆປົນເປກັນລະຫວ່າງຜູ້ໃຊ້, ເຊິ່ງມັກຈະສົ່ງຜົນໃຫ້ເກີດການຮົ່ວໄຫຼຂອງຂໍ້ມູນໂດຍບໍ່ໄດ້ຕັ້ງໃຈ ຫຼື ມີການຈຳກັດຫຼາຍເກີນໄປ. ສຳລັບແອັບພລິເຄຊັນ LLM ແບບ SaaS ຫຼື ການນຳໃຊ້ພາຍໃນອົງກອນທີ່ມີຫຼາຍພາກສ່ວນ, ຫົວຂໍ້, ພາສາ ແລະ ຮູບແບບການສະແດງຜົນທີ່ອະນຸຍາດໃຫ້ໃຊ້ງານນັ້ນມັກຈະມີຄວາມແຕກຕ່າງກັນໃນແຕ່ລະຜູ້ໃຊ້. ໃນຫົວຂໍ້ H3 ຕໍ່ໄປນີ້, ພວກເຮົາຈະອະທິບາຍກ່ຽວກັບໂຄງສ້າງສະເພາະຂອງການອອກແບບນະໂຍບາຍແຍກຕາມຜູ້ໃຊ້ ແລະ ຂໍ້ຄວນລະວັງໃນການດຳເນີນງານທີ່ຄວນເພີ່ມເຕີມສຳລັບຂະແໜງການທີ່ມີການຄວບຄຸມຢ່າງເຂັ້ມງວດ ເຊັ່ນ: ຂະແໜງການເງິນ ແລະ ການແພດ.

ການອອກແບບນະໂຍບາຍແຍກຕາມ Tenant

ໃນສະພາບແວດລ້ອມ Multi-tenant, ການອະນຸຍາດການດຳເນີນງານ, ຄຳສັບທີ່ຫ້າມໃຊ້ ແລະ ຮູບແບບການສະແດງຜົນຈະແຕກຕ່າງກັນໄປໃນແຕ່ລະ Tenant, ດັ່ງນັ້ນການອອກແບບເພື່ອແຍກ ແລະ ຈັດການ Guardrails ໃນລະດັບ Tenant ຈຶ່ງເປັນສິ່ງທີ່ຂາດບໍ່ໄດ້. ນອກຈາກຊັ້ນ Guardrails ທົ່ວໄປແລ້ວ, ໂຄງສ້າງແບບລຳດັບຊັ້ນທີ່ສາມາດຂຽນທັບ (Override) ນະໂຍບາຍສະເພາະຂອງ Tenant ໄດ້ນັ້ນຖືວ່າມີປະສິດທິພາບ.

ນະໂຍບາຍພື້ນຖານໃນການອອກແບບ

  • Global Policy (ທົ່ວໄປສຳລັບທຸກ Tenant): ກົດລະບຽບຄວາມປອດໄພຂັ້ນພື້ນຖານ ເຊັ່ນ: ການກວດຈັບ Jailbreak, ການປ້ອງກັນຂໍ້ມູນລັບຮົ່ວໄຫຼ ແລະ ອື່ນໆ.
  • Tenant Policy (ສາມາດຂຽນທັບໄດ້): ຂໍ້ຈຳກັດເພີ່ມເຕີມ ຫຼື ລາຍການອະນຸຍາດ (Allowlist) ຕາມປະເພດທຸລະກິດ ຫຼື ສັນຍາ.
  • User Policy (ທາງເລືອກ): ການຄວບຄຸມຢ່າງລະອຽດຕາມແຕ່ລະ Role ພາຍໃນ Tenant.

ການໃຊ້ໂຄງສ້າງ 3 ຊັ້ນນີ້ ເຮັດໃຫ້ສາມາດດຳເນີນງານໄດ້ຢ່າງຍືດຫຍຸ່ນ ເຊັ່ນ: Tenant ໜຶ່ງອະນຸຍາດໃຫ້ສະແດງຜົນຄຳສັບທາງການແພດໄດ້ ໃນຂະນະທີ່ອີກ Tenant ໜຶ່ງສາມາດບລັອກຄຳສັບດຽວກັນນັ້ນໄດ້.

ຂໍ້ຄວນລະວັງໃນການປະຕິບັດງານ

  • ຝັງ Tenant ID ໄວ້ໃນ System Prompt ແລະ ອ້າງອີງໃນເວລາປະເມີນ Guardrails.
  • ການຕັ້ງຄ່ານະໂຍບາຍຄວນຈັດການຜ່ານໄຟລ໌ການຕັ້ງຄ່າ (YAML, JSON) ແທນທີ່ຈະເປັນ Code ເພື່ອໃຫ້ສາມາດປ່ຽນແປງໄດ້ໂດຍບໍ່ຕ້ອງ Deploy ໃໝ່.
  • ແຍກຂອບເຂດ (Scope) ຂອງ Context Window ໃຫ້ຊັດເຈນໃນລະດັບ Tenant ເພື່ອປ້ອງກັນບໍ່ໃຫ້ນະໂຍບາຍລະຫວ່າງ Tenant ປົນກັນໂດຍບໍ່ຕັ້ງໃຈ.

ຄວາມສ່ຽງທີ່ມັກຖືກມອງຂ້າມ

ມີລາຍງານກ່ຽວກັບກໍລະນີ "Confused Deputy Problem" ເຊິ່ງຜູ້ໃຊ້ຂອງ Tenant A ໃຊ້ Prompt Injection ເພື່ອດຶງເອົາການດຳເນີນງານທີ່ໄດ້ຮັບອະນຸຍາດໃນນະໂຍບາຍຂອງ Tenant B. ເພື່ອເປັນການປ້ອງກັນ, ແນະນຳໃຫ້ອອກແບບໂດຍການເພີ່ມການກວດສອບລາຍເຊັນ (Signature Verification) ຂອງ Tenant ID ກ່ອນການປະເມີນ Guardrails.

ປະຫວັດການປ່ຽນແປງນະໂຍບາຍຄວນຖືກບັນທຶກໄວ້ໃນໂຄງສ້າງພື້ນຖານ ຫຼື Infrastructure ດ້ານ AI Observability ແລະ ເກັບຮັກສາໄວ້ເປັນຫຼັກຖານໃນການກວດສອບ (Audit Trail) ເພື່ອເພີ່ມປະສິດທິພາບໃນການປະຕິບັດຕາມກົດລະບຽບ ແລະ ການສືບສວນຫາສາເຫດເມື່ອເກີດບັນຫາ.

ຂໍ້ຄວນລະວັງໃນການດຳເນີນງານສຳລັບອຸດສາຫະກຳທີ່ມີການຄວບຄຸມ

ໃນອຸດສາຫະກຳທີ່ມີການຄວບຄຸມ ເຊັ່ນ: ການເງິນ, ການແພດ ແລະ ກົດໝາຍ, Guardrails ມັກຈະມີຄວາມກ່ຽວຂ້ອງໂດຍກົງກັບຂໍ້ກຳນົດດ້ານການປະຕິບັດຕາມກົດລະບຽບ (Compliance), ເຮັດໃຫ້ມີຄວາມຕ້ອງການໃນການອອກແບບທີ່ເຂັ້ມງວດກວ່າການນຳໃຊ້ທົ່ວໄປ.

ມຸມມອງທີ່ຄວນເອົາໃຈໃສ່ເປັນພິເສດໃນອຸດສາຫະກຳທີ່ມີການຄວບຄຸມ

  • ຄວາມຄົບຖ້ວນຂອງບັນທຶກການກວດສອບ (Audit Log): ຈັດເກັບການຕິດຕາມຂໍ້ມູນຂາເຂົ້າ ແລະ ຂາອອກທັງໝົດໃນຮູບແບບທີ່ບໍ່ສາມາດແກ້ໄຂໄດ້ ເພື່ອສ້າງລະບົບທີ່ສາມາດຕອບສະໜອງຕໍ່ການກວດສອບຂອງໜ່ວຍງານກຳກັບດູແລໄດ້ທັນທີ
  • ການຫຼຸດຜ່ອນຂໍ້ມູນ (Data Minimization): ຈຳກັດຂອບເຂດການໃສ່ຂໍ້ມູນສ່ວນຕົວ ຫຼື ຂໍ້ມູນລັບລົງໃນ System Prompt ຫຼື Context Window ໃຫ້ໜ້ອຍທີ່ສຸດ
  • ການຕັດສິນໃຈຂັ້ນສຸດທ້າຍໂດຍມະນຸດ (HITL - Human-in-the-loop): ສຳລັບຜົນລາຍງານທີ່ມີຄວາມສ່ຽງສູງ ເຊັ່ນ: ການກວດສອບສິນເຊື່ອ ຫຼື ການຊ່ວຍເຫຼືອດ້ານການວິນິດໄສ, ບໍ່ຄວນນຳໃຊ້ການຕັດສິນໃຈຂອງ AI ໂດຍກົງ ແຕ່ຕ້ອງມີຂັ້ນຕອນການກວດສອບໂດຍເຈົ້າໜ້າທີ່ທີ່ຮັບຜິດຊອບສະເໝີ
  • ການປະຕິບັດຕາມ EU AI Act ຫຼື NIST AI RMF: ໃນກໍລະນີທີ່ຖືກຈັດປະເພດເປັນລະບົບ AI ທີ່ມີຄວາມສ່ຽງສູງ ອາດມີຂໍ້ບັງຄັບໃຫ້ຕ້ອງມີການຈັດກຽມເອກະສານການຈັດການຄວາມສ່ຽງ ແລະ Model Card

ຂໍ້ຄວນລະວັງໃນການຈັດຕັ້ງປະຕິບັດ

ໃນຂະແໜງການແພດ, ຂໍ້ມູນທີ່ຜິດພາດຈາກ Hallucination ສາມາດສົ່ງຜົນກະທົບໂດຍກົງຕໍ່ຄວາມປອດໄພຂອງຄົນເຈັບ. ການນຳເອົາ Grounding Check ເຂົ້າໄປໃນຂະບວນການ ຫຼື Pipeline ຂອງຜົນລາຍງານ ແລະ ການລະບຸເອກະສານອ້າງອີງຂອງ RAG (Retrieval-Augmented Generation) ໃຫ້ຊັດເຈນ ຈະສາມາດຊ່ວຍຍັບຍັ້ງການສະຫຼຸບທີ່ບໍ່ມີຫຼັກຖານໄດ້.

ໃນຂະແໜງການເງິນ, ຄວາມສ່ຽງຕໍ່ການຮົ່ວໄຫຼຂອງຂໍ້ມູນລັບ (Sensitive Information Disclosure) ແມ່ນສູງຫຼາຍ. ນອກຈາກການແຍກຂໍ້ມູນລະຫວ່າງ Tenant ແລ້ວ, ຄວນນຳໃຊ້ສະຖາປັດຕະຍະກຳທີ່ອີງໃສ່ຫຼັກການ Privacy by Isolation.

ເນື່ອງຈາກຂໍ້ກຳນົດດ້ານກົດລະບຽບອາດມີການປັບປຸງ, ຈຶ່ງແນະນຳໃຫ້ສ້າງລະບົບການບໍລິຫານຈັດການທີ່ສອດຄ່ອງກັບ ISO/IEC 42001 (ມາດຕະຖານລະບົບການຈັດການ AI) ແລະ ກຳນົດຮອບວຽນການທົບທວນຄືນຢ່າງສະໝ່ຳສະເໝີ.

ຄຳຖາມທີ່ພົບເລື້ອຍ

Q1. ການນຳໃຊ້ Guardrail ຈະເຮັດໃຫ້ Latency ເພີ່ມຂຶ້ນບໍ?

ໃນກໍລະນີທີ່ມີການໃສ່ Model ການຈັດປະເພດ (Classification Model) ທັງໃນສ່ວນຂອງ Input ແລະ Output, ມັກຈະມີ Latency ເພີ່ມຂຶ້ນປະມານຫຼາຍສິບຫາຫຼາຍຮ້ອຍມິນລີວິນາທີ. ທ່ານສາມາດຫຼຸດຜ່ອນຜົນກະທົບດັ່ງກ່າວໃຫ້ໜ້ອຍທີ່ສຸດໄດ້ດ້ວຍການຈັດໂຄງສ້າງແບບຫຼາຍຂັ້ນຕອນ ເຊັ່ນ: ການເລືອກໃຊ້ SLM ທີ່ມີນ້ຳໜັກເບົາສຳລັບວຽກງານ Guard, ຫຼື ການກວດສອບຜ່ານ Rule-based filter ກ່ອນເພື່ອຄັດກອງການລະເມີດທີ່ຊັດເຈນອອກໄປຕັ້ງແຕ່ຕົ້ນ.


Q2. ມາດຕະການປ້ອງກັນ Prompt Injection ສາມາດປ້ອງກັນໄດ້ຢ່າງສົມບູນແບບບໍ?

ໃນປັດຈຸບັນ, ການ "ປ້ອງກັນຢ່າງສົມບູນ" ແມ່ນຍັງເຮັດໄດ້ຍາກ ແລະ ການປ້ອງກັນແບບຫຼາຍຊັ້ນ (Defense-in-depth) ແມ່ນພື້ນຖານທີ່ສຳຄັນ. ການປະສົມປະສານລະຫວ່າງການເຮັດ Input Sanitization, ການເສີມຄວາມແຂງແກ່ນໃຫ້ກັບ System Prompt, ແລະ ການກວດສອບ Grounding ຂອງ Output ສາມາດຊ່ວຍຫຼຸດອັດຕາການໂຈມຕີສຳເລັດ (ASR) ໄດ້ຢ່າງຫຼວງຫຼາຍ. ການກວດສອບຢ່າງຕໍ່ເນື່ອງດ້ວຍການເຮັດ Fuzzing ຫຼື Red Teaming ເປັນປະຈຳແມ່ນມີຄວາມສຳຄັນຫຼາຍ.


Q3. ມີ Library ປະເພດ Open-source Guardrail ໃຫ້ໃຊ້ບໍ?

ມີເຄື່ອງມື Open-source ທີ່ສາມາດນຳໃຊ້ເພື່ອປະເມີນຄວາມສ່ຽງຂອງ LLM ໄດ້ ເຊັ່ນ: Garak ຫຼື PyRIT. ຢ່າງໃດກໍຕາມ, ເນື່ອງຈາກ License ແລະ Model ທີ່ຮອງຮັບອາດມີການປ່ຽນແປງໄດ້, ກະລຸນາກວດສອບຂໍ້ມູນຫຼ້າສຸດຈາກເອກະສານທາງການ.


Q4. Guardrail ສາມາດນຳໃຊ້ກັບ Multimodal AI ໄດ້ບໍ?

ໃນກໍລະນີທີ່ຈັດການກັບຮູບພາບ ຫຼື ສຽງ ນອກເໜືອໄປຈາກຂໍ້ຄວາມ, ຈຳເປັນຕ້ອງມີການກຽມ Model ການຈັດປະເພດ (Classification Model) ໃຫ້ສອດຄ່ອງກັບແຕ່ລະ Modality. ການຮັບມືກັບ Multimodal Jailbreak ຍັງມີຫຼາຍສ່ວນທີ່ຢູ່ໃນຂັ້ນຕອນການຄົ້ນຄວ້າ, ສະນັ້ນໃນປັດຈຸບັນ ການສ້າງລະບົບເກັບ Log ຂອງ Input ແລະ Output ໃນແຕ່ລະ Modality ແຍກຕ່າງຫາກເພື່ອตรวจจับ (Detect) ຄວາມຜິດປົກກະຕິ ຈຶ່ງເປັນບາດກ້າວທຳອິດທີ່ເໝາະສົມກັບຄວາມເປັນຈິງ.


Q5. Guardrail ມີປະໂຫຍດຕໍ່ການປະຕິບັດຕາມກົດລະບຽບ (EU AI Act, ISO/IEC 42001, ແລະ ອື່ນໆ) ບໍ?

Log ແລະ ບັນທຶກການປະເມີນຜົນຂອງ Guardrail ສາມາດນຳໃຊ້ເປັນຫຼັກຖານໃນການກຳກັບດູແລ AI (AI Governance) ໄດ້. ຢ່າງໃດກໍຕາມ, ເພື່ອໃຫ້ບັນລຸຂໍ້ກຳນົດດ້ານກົດລະບຽບ, ຈຳເປັນຕ້ອງມີການດຳເນີນການເພີ່ມເຕີມ ເຊັ່ນ: ການຈັດປະເພດຄວາມສ່ຽງ ແລະ ການຈັດເຮັດເອກະສານ. ແນະນຳໃຫ້ປຶກສາຫາລືກັບຜູ້ຊ່ຽວຊານ.

ສະຫຼຸບ

ການຈັດຕັ້ງປະຕິບັດ AI Guardrail ບໍ່ແມ່ນສິ່ງທີ່ເຮັດຄັ້ງດຽວແລ້ວຈົບ. ເນື່ອງຈາກໄພຂົ່ມຂູ່ມີການພັດທະນາ ແລະ ຮູບແບບການນຳໃຊ້ຂອງຜູ້ໃຊ້ກໍມີການປ່ຽນແປງຢູ່ສະເໝີ, ວົງຈອນການປັບປຸງຢ່າງຕໍ່ເນື່ອງຈຶ່ງເປັນສິ່ງທີ່ຂາດບໍ່ໄດ້.

ສະຫຼຸບປະເດັນສຳຄັນທີ່ໄດ້ອະທິບາຍໃນບົດຄວາມນີ້ ມີດັ່ງນີ້:

  • ການຈັດລະບຽບເງື່ອນໄຂເບື້ອງຕົ້ນ: ການກຳນົດ Input ແລະ Output ທີ່ຕ້ອງປົກປ້ອງໃຫ້ຊັດເຈນ ແລະ ເຂົ້າໃຈສະຖານະປັດຈຸບັນຂອງແອັບພລິເຄຊັນທີ່ມີຢູ່ ເປັນຈຸດເລີ່ມຕົ້ນ.
  • ສາມຂັ້ນຕອນການຈັດຕັ້ງປະຕິບັດ: ອອກແບບຕາມລຳດັບຄື ການກຳນົດຮູບແບບໄພຂົ່ມຂູ່ (Threat Model) → Input Guardrail → Output Guardrail.
  • ການດຳເນີນງານ ແລະ ການປະເມີນຜົນ: ຮັກສາປະສິດທິພາບຂອງ Guard ດ້ວຍການທົດສອບ Regression ແບບຕໍ່ເນື່ອງໂດຍໃຊ້ຊຸດການປະເມີນຜົນ ແລະ ການຕິດຕາມຜ່ານ Dashboard.
  • ການຫຼີກລ່ຽງຮູບແບບຄວາມຜິດພາດ: ການປິດກັ້ນທີ່ຜິດພາດ ແລະ ການປ້ອງກັນທີ່ເກີນຄວາມຈຳເປັນ ລ້ວນແຕ່ສົ່ງຜົນເສຍຕໍ່ UX, ດັ່ງນັ້ນການປັບສົມດູນຈຶ່ງເປັນສິ່ງສຳຄັນ.
  • ການຮອງຮັບ Multi-tenant: ຈຳເປັນຕ້ອງມີການອອກແບບທີ່ປະສົມປະສານລະຫວ່າງນະໂຍບາຍສະເພາະຂອງແຕ່ລະ Tenant ແລະ ຂໍ້ກຳນົດຂອງອຸດສາຫະກຳທີ່ມີການຄວບຄຸມ.

ສິ່ງທີ່ຄວນລະວັງເປັນພິເສດຄື ຄວາມຄິດທີ່ວ່າ "ຂໍພຽງແຕ່ປ້ອງກັນໄດ້ກໍພໍແລ້ວ" ເຊິ່ງມີຄວາມສ່ຽງທີ່ຈະນຳໄປສູ່ການເຮັດໃຫ້ UX ຫຼຸດລົງຍ້ອນການປ້ອງກັນທີ່ເກີນຄວາມຈຳເປັນ. ການປ້ອງກັນ Prompt Injection ແລະ ການຍັບຍັ້ງ Hallucination ເປັນສິ່ງສຳຄັນ, ແຕ່ຖ້າຫາກປິດກັ້ນຄຳຮ້ອງຂໍທີ່ຖືກຕ້ອງໂດຍຜິດພາດ ກໍຈະເຮັດໃຫ້ສູນເສຍຄວາມເຊື່ອໝັ້ນຈາກຜູ້ໃຊ້. ການຮັບຮູ້ເຖິງ ການແລກປ່ຽນ ຫຼື Trade-off ລະຫວ່າງຄວາມປອດໄພ ແລະ ຄວາມສະດວກສະບາຍ, ພ້ອມທັງການອັບເດດຊຸດການປະເມີນຜົນຢ່າງສະໝ່ຳສະເໝີ ແລະ ຕິດຕາມທັງອັດຕາການປິດກັ້ນທີ່ຜິດພາດ ແລະ ອັດຕາການລອດພົ້ນຂອງການໂຈມຕີ ຖືເປັນວິທີການທີ່ແທ້ຈິງ.

ໂດຍອີງໃສ່ທິດທາງຂອງກົດລະບຽບຕ່າງໆ ເຊັ່ນ: NIST Guidelines ແລະ EU AI Act, ພວກເຮົາແນະນຳໃຫ້ດຳເນີນການອອກແບບການດຳເນີນງານຄວບຄູ່ໄປກັບການຄຸ້ມຄອງ (Governance) ທັງອົງກອນ ຈາກມຸມມອງຂອງ AI TRiSM. Guardrail ບໍ່ພຽງແຕ່ເປັນຮົ້ວຄວາມປອດໄພທາງດ້ານເທັກນິກເທົ່ານັ້ນ, ແຕ່ຍັງເປັນພື້ນຖານໃນການສ້າງຄວາມເຊື່ອໝັ້ນໃຫ້ກັບແອັບພລິເຄຊັນ LLM ອີກດ້ວຍ.

Author & Supervisor

Yusuke Ishihara

Yusuke Ishihara

ເລີ່ມຂຽນໂປຣແກຣມຕັ້ງແຕ່ອາຍຸ 13 ປີ ດ້ວຍ MSX. ຫຼັງຈົບການສຶກສາຈາກມະຫາວິທະຍາໄລ Musashi, ໄດ້ເຮັດວຽກໃນການພັດທະນາລະບົບຂະໜາດໃຫຍ່ ລວມທັງລະບົບຫຼັກຂອງສາຍການບິນ ແລະ ໂຄງສ້າງ Windows Server Hosting/VPS ທຳອິດຂອງຍີ່ປຸ່ນ. ຮ່ວມກໍ່ຕັ້ງ Site Engine Inc. ໃນປີ 2008. ກໍ່ຕັ້ງ Unimon Inc. ໃນປີ 2010 ແລະ Enison Inc. ໃນປີ 2025, ນຳພາການພັດທະນາລະບົບທຸລະກິດ, NLP ແລະ ແພລດຟອມ. ປັດຈຸບັນສຸມໃສ່ການພັດທະນາຜະลິດຕະພັນ ແລະ ການສົ່ງເສີມ AI/DX ໂດຍນຳໃຊ້ generative AI ແລະ LLM.