QLoRA (Quantized LoRA) ແມ່ນວິທີການທີ່ລວມເອົາການ quantization 4bit ເຂົ້າກັບ LoRA ເພື່ອເຮັດໃຫ້ສາມາດ fine-tuning ໂມເດລພາສາຂະໜາດໃຫຍ່ໄດ້ແມ່ນແຕ່ໃນ GPU ສຳລັບຜູ້ບໍລິໂພກທົ່ວໄປ.
QLoRA ທີ່ຖືກປະກາດໃນປີ 2023 ແມ່ນຄຳຕອບໂດຍກົງຕໍ່ສຽງຮ້ອງຂໍທີ່ຮີບດ່ວນຈາກພາກສະໜາມວ່າ "GPU ບໍ່ພຽງພໍ". ຫຼັກການຫຼັກນັ້ນງ່າຍດາຍ ຄື quantize weights ຂອງ base model ລົງເປັນ 4bit ເພື່ອຫຼຸດການໃຊ້ GPU memory ຢ່າງຫຼວງຫຼາຍ ແລ້ວຈຶ່ງ train ສະເພາະ LoRA adapter ດ້ວຍ 16bit. ກ່າວຄື ການອອກແບບແບບສອງຂັ້ນຕອນທີ່ວ່າ "ໂຫຼດໃຫ້ເບົາ, train ໃຫ້ລະອຽດ". ເວົ້າເປັນຕົວເລກ, ການໂຫຼດ model ທີ່ມີ 65B parameters ດ້ວຍ full precision ຕ້ອງການ A100 80GB ຫຼາຍໃບ, ແຕ່ດ້ວຍ QLoRA ສາມາດໃສ່ໄດ້ໃນ 1 ໃບ. ສຳລັບ 7B model ນັ້ນ ສາມາດ train ໄດ້ດ້ວຍ RTX 3090 (24GB) ຫຼື RTX 4090 ອີກດ້ວຍ. ຄ່າໃຊ້ຈ່າຍໃນການເຊົ່າ GPU instance ເທິງ cloud ກໍ່ສາມາດຫຼຸດລົງໄດ້ຕ່ຳກວ່າ 1/10 ຂອງ full FT ໃນຫຼາຍກໍລະນີ. ຢ່າງໃດກໍ່ຕາມ ມີຂໍ້ຄວນລະວັງເຊັ່ນກັນ. ການເສື່ອມຄຸນນະພາບຈາກ 4bit quantization ນັ້ນບໍ່ໄດ້ເປັນສູນ. ຈາກທີ່ຜູ້ຂຽນໄດ້ທົດລອງ, ສຳລັບ task ການຈຳແນກປະເພດທີ່ງ່າຍດາຍ ຫຼື task ການສະຫຼຸບ ຄວາມແຕກຕ່າງຈາກ full precision LoRA ແทบຈະບໍ່ປາກົດ, ແຕ່ສຳລັບ task ທີ່ຕ້ອງການການໃຊ້ເຫດຜົນທາງຄະນິດສາດ ຫຼືການພັດທະນາເຫດຜົນໃນຂໍ້ຄວາມຍາວ ພົບວ່າ score ຫຼຸດລົງປະມານ 1〜3%. ຮູ້ສຶກວ່າໃນການປະຕິບັດຕົວຈິງ ລຳດັບທີ່ສົມເຫດສົມຜົນຄື "ລອງ QLoRA ກ່ອນ, ຖ້າຄຸນນະພາບບໍ່ພຽງພໍຈຶ່ງປ່ຽນໄປໃຊ້ full precision LoRA".


A2A (Agent-to-Agent Protocol) ແມ່ນໂປຣໂຕຄໍການສື່ສານທີ່ຊ່ວຍໃຫ້ AI agent ທີ່ແຕກຕ່າງກັນສາມາດຄົ້ນຫາຄວາມສາມາດ, ມອບໝາຍໜ້າທີ່, ແລະ ຊິງຄ໌ສະຖານະລະຫວ່າງກັນໄດ້, ໂດຍ Google ໄດ້ເປີດເຜີຍໃນເດືອນເມສາ 2025.

Agentic AI ແມ່ນຊື່ເອີ້ນລວມຂອງລະບົບ AI ທີ່ສາມາດຕີຄວາມໝາຍເປົ້າໝາຍ ແລະ ດຳເນີນການວາງແຜນ, ປະຕິບັດ, ແລະ ກວດສອບຢ່າງເປັນອິດສະຫຼະ ໂດຍບໍ່ຕ້ອງການຄຳແນະນຳລະອຽດຈາກມະນຸດໃນແຕ່ລະຂັ້ນຕອນ.

ອຳບຽງ AI (Ambient AI) ໝາຍເຖິງລະບົບ AI ທີ່ຝັງຕົວຢູ່ໃນສະພາບແວດລ້ອມຂອງຜູ້ໃຊ້ງານ, ຄອຍຕິດຕາມຂໍ້ມູນຈາກເຊັນເຊີ ແລະ ເຫດການຕ່າງໆ ພ້ອມທັງດຳເນີນການລ່ວງໜ້າໂດຍບໍ່ຕ້ອງມີຄຳສັ່ງທີ່ຊັດເຈນຈາກຜູ້ໃຊ້.
