RLHF ແມ່ນວິທີການຮຽນຮູ້ແບບເສີມກຳລັງທີ່ໃຊ້ຄຳຕິຊົມຂອງມະນຸດເປັນລາງວັນ, ສ່ວນ RLVR ແມ່ນວິທີການຮຽນຮູ້ແບບເສີມກຳລັງທີ່ໃຊ້ຄຳຕອບທີ່ສາມາດກວດສອບໄດ້ເປັນລາງວັນ, ທັງສອງວິທີຖືກໃຊ້ເພື່ອປັບຜົນລັບຂອງ LLM ໃຫ້ສອດຄ່ອງກັບຄວາມຄາດຫວັງຂອງມະນຸດ.
LLM ທີ່ຜ່ານການ pre-training ມາແລ້ວນັ້ນມີຄວາມຮູ້ຢ່າງມະຫາສານ ແຕ່ຖ້າໃຊ້ງານໂດຍກົງກໍຍັງຍາກຢູ່. ມັນອາດຈະບໍ່ຕອບຄຳຖາມ ແຕ່ສ້າງຂໍ້ຄວາມຕໍ່ເນື່ອງແທນ ຫຼື ສ້າງເນື້ອຫາທີ່ເປັນອັນຕະລາຍ. ການປ່ຽນສະຖານະ "ສະຫຼາດແຕ່ຈັດການຍາກ" ນີ້ໃຫ້ກາຍເປັນ "ສະຫຼາດແລະໃຊ້ງານງ່າຍ" ຄືສິ່ງທີ່ເອີ້ນວ່າ alignment (ການປັບຄວາມສອດຄ່ອງ) ໂດຍເຕັກໂນໂລຊີຫຼັກຂອງມັນຄື RLHF.
ໃນ RLHF (Reinforcement Learning from Human Feedback) ນັ້ນ annotator ທີ່ເປັນມະນຸດຈະທຽບຜົນລັບຫຼາຍອັນຂອງ model ແລ້ວໃຫ້ຄະແນນວ່າ "ອັນນີ້ດີກວ່າ". ຂໍ້ມູນການປະເມີນດັ່ງກ່າວຈະຖືກໃຊ້ຝຶກ reward model ແລ້ວປັບ LLM ດ້ວຍ reinforcement learning ໃຫ້ໄດ້ຮັບ reward ສູງຂຶ້ນ. ທີ່ ChatGPT ແລະ Claude ສາມາດຕອບໂຕ້ໄດ້ "ຄືກັບການສົນທະນາຈິງ" ນັ້ນກໍເປັນຜົນຂອງ RLHF.
ແຕ່ກໍມີສິ່ງທ້າທາຍຢູ່ເຊັ່ນກັນ. ການປະເມີນຂອງມະນຸດມີຕົ້ນທຶນສູງ ມີຄວາມຫຼາກຫຼາຍທາງດ້ານຄວາມຄິດເຫັນສ່ວນຕົວ ແລະ ຂະຫຍາຍຂະໜາດໄດ້ຍາກ. ນອກຈາກນີ້ຍັງມີການຊີ້ໃຫ້ເຫັນເຖິງບັນຫາທີ່ເອີ້ນວ່າ reward hacking ຄືການທີ່ "ຄຳຕອບທີ່ເບິ່ງໜ້າເຊື່ອຖືໄດ້ແຕ່ຜິດ" ກັບໄດ້ຮັບຄະແນນສູງ.
RLVR (Reinforcement Learning with Verifiable Rewards) ເປັນວິທີການທີ່ໄດ້ຮັບຄວາມສົນໃຈໃນປີ 2025 ຜ່ານ DeepSeek-R1. ວິທີນີ້ຈຳກັດສະເພາະ task ທີ່ສາມາດກວດສອບຄວາມຖືກຕ້ອງໄດ້ດ້ວຍເຄື່ອງຈັກ ເຊັ່ນ: ການພິສູດທາງຄະນິດສາດ ຫຼື ຜົນການ execute code ໂດຍໃຫ້ reward ໂດຍບໍ່ຜ່ານການປະເມີນຂອງມະນຸດ.
ເນື່ອງຈາກບໍ່ມີຄວາມຄິດເຫັນສ່ວນຕົວຂອງມະນຸດເຂົ້າມາ noise ຂອງ reward ຈຶ່ງໜ້ອຍລົງ ແລະ ສາມາດສ້າງ feedback ຈຳນວນຫຼວງຫຼາຍໄດ້ດ້ວຍຕົ້ນທຶນຕ່ຳ. ໃນ benchmark ດ້ານຄະນິດສາດ, coding ແລະ formal logic ນັ້ນ ມີລາຍງານວ່າ RLVR ໃຫ້ການປັບປຸງຄວາມຖືກຕ້ອງທີ່ດີກວ່າ RLHF. algorithm ສະເພາະຢ່າງ GRPO ແລະ DPO ກໍຢູ່ໃນກະແສນີ້.
ທັງສອງບໍ່ໄດ້ຂັດກັນ. RLVR ມີປະສິດທິພາບສຳລັບ task ທີ່ກວດສອບໄດ້ (ການສ້າງ code, ຄະນິດສາດ, ການກວດສອບຂໍ້ເທັດຈິງ) ໃນຂະນະທີ່ task ທີ່ "ຄຳຕອບທີ່ຖືກຕ້ອງບໍ່ໄດ້ມີອັນດຽວ" ເຊັ່ນ: ການຂຽນສ້າງສັນ ຫຼື ຄຸນນະພາບຂອງການສົນທະນາ ກໍຍັງຕ້ອງການ RLHF ຢູ່. ໃນຄວາມເປັນຈິງ hybrid approach ທີ່ລວມທັງສອງເຂົ້າດ້ວຍກັນກຳລັງເພີ່ມຂຶ້ນ.


ເຕັກນິກການໂຈມຕີທີ່ໃຊ້ການປ້ອນຂໍ້ມູນທີ່ເປັນອັນຕະລາຍເພື່ອຄວບຄຸມການເຮັດວຽກຂອງ LLM ໃຫ້ໄປໃນທິດທາງທີ່ບໍ່ໄດ້ຕັ້ງໃຈ. ຖືກຈັດປະເພດເປັນຄວາມສ່ຽງສຳຄັນທີ່ສຸດໃນ OWASP LLM Top 10.

ກົນໄກຄວາມປອດໄພທີ່ກວດສອບການນຳເຂົ້າແລະຜົນອອກຂອງ LLM ເພື່ອກວດຈັບແລະສະກັດກັ້ນເນື້ອຫາທີ່ເປັນອັນຕະລາຍ, ການຮົ່ວໄຫລຂອງຂໍ້ມູນລັບ, ແລະການລະເມີດນະໂຍບາຍໂດຍອັດຕະໂນມັດ.

ການຄິດໄລ່ຫຼາຍຂັ້ນຕອນ (Multi-step Reasoning) ແມ່ນຮູບແບບການຄິດໄລ່ທີ່ LLM ບໍ່ໄດ້ສ້າງຄຳຕອບໃນຄັ້ງດຽວ ແຕ່ຜ່ານຂັ້ນຕອນກາງຫຼາຍຂັ້ນ (ເຊັ່ນ: ການສ້າງຄຳຖາມຍ່ອຍ, ການກວດສອບຄຳຕອບບາງສ່ວນ, ການດຶງຂໍ້ມູນເພີ່ມເຕີມ ແລະ ອື່ນໆ) ເພື່ອໄປເຖິງຄຳຕອບສຸດທ້າຍ.


ການປຽບທຽບການນຳໃຊ້ Local LLM / SLM — ການໃຊ້ AI ໂດຍບໍ່ຂຶ້ນກັບ Cloud API

Remote Sensing ແມ່ນຄຳສັບລວມທີ່ໃຊ້ເອີ້ນເຕັກໂນໂລຊີທີ່ວັດແທກການສະທ້ອນ ແລະ ການແຜ່ລັງສີຂອງຄື້ນແມ່ເຫຼັກໄຟຟ້າຈາກດາວທຽມ, ອາກາດຍານ, ໂດຣນ ແລະ ອື່ນໆ ທີ່ຕິດຕັ້ງເຊັນເຊີ, ໂດຍບໍ່ຕ້ອງສຳຜັດກັບວັດຖຸໂດຍກົງ, ເພື່ອເກັບກຳ ແລະ ວິເຄາະສະພາບຂອງພື້ນຜິວໂລກ ແລະ ບັນຍາກາດ.