GPU (Graphics Processing Unit) ແມ່ນຊິບເຊມີຄອນດັກເຕີທີ່ປະມວນຜົນການຄຳນວນຂະໜານຈຳນວນຫຼວງຫຼາຍໄດ້ຢ່າງວ່ອງໄວ. ເດີມທີຖືກອອກແບບມາສຳລັບການສ້າງຮູບພາບ, ແຕ່ຄວາມສາມາດໃນການຄຳນວນຂະໜານຂອງມັນເໝາະສົມກັບການຮຽນຮູ້ແລະການອ້າງເຫດຜົນຂອງ AI, ແລະໃນປັດຈຸບັນໄດ້ກາຍເປັນຮາດແວທີ່ຂາດບໍ່ໄດ້ສຳລັບການຝຶກອົບຮົມ (training) ແລະການ fine-tuning ຂອງ LLM.
## ເປັນຫຍັງຈຶ່ງໃຊ້ GPU ແທນ CPU CPU ຖືກປັບໃຫ້ເໝາະສົມສຳລັບການປະມວນຜົນຕາມລຳດັບທີ່ສັບສົນ ໂດຍມີຈຳນວນ core ປະມານສິບກວ່າໂຕ. ໃນທາງກົງກັນຂ້າມ GPU ສາມາດປະຕິບັດການຄຳນວນທີ່ງ່າຍດາຍໄດ້ພ້ອມກັນດ້ວຍ core ຫຼາຍພັນຫາຫຼາຍໝື່ນໂຕ. ການຝຶກ Neural Network ໂດຍພື້ນຖານແລ້ວແມ່ນການຄຳນວນ matrix ຊ້ຳໆ ແລະ ຮູບແບບການປະມວນຜົນນີ້ກົງກັບ parallel architecture ຂອງ GPU. ຕົວຢ່າງເຊັ່ນ ໃນກໍລະນີທີ່ຝຶກ Dense Model ຂະໜາດ 70B parameter ຈຳເປັນຕ້ອງຄຳນວນ gradient ຂອງແຕ່ລະ parameter ແບບຂະໜານ. ການຄຳນວນທີ່ຕ້ອງໃຊ້ເວລາຫຼາຍເດືອນຫາກປະມວນຜົນຕາມລຳດັບດ້ວຍ CPU ສາມາດສຳເລັດໄດ້ພາຍໃນສອງສາມວັນຫາສອງສາມອາທິດດ້ວຍ GPU cluster. ## ຂໍ້ຈຳກັດຂອງ VRAM ເມື່ອເວົ້າເຖິງ GPU ໃນສະພາບການຂອງ AI ສິ່ງທີ່ສຳຄັນເທົ່າກັບປະສິດທິພາບການຄຳນວນກໍຄື VRAM(Video RAM). ຈຳເປັນຕ້ອງໂຫຼດ weight ແລະ activation ທັງໝົດຂອງ model ໄວ້ໃນ VRAM ແລະ ຄວາມຈຸ VRAM ເປັນຕົວກຳນົດຂອບເຂດຈຳກັດຕົວຈິງຂອງຂະໜາດ model. NVIDIA A100(80GB)1 ໃບ ສາມາດໂຫຼດໄດ້ປະມານ 40B parameter(ໃນກໍລະນີ FP16). ເພື່ອໃຊ້ງານ Dense Model ຂະໜາດ 70B ຕ້ອງການຢ່າງໜ້ອຍ 2 ໃບ ແລະ ຫາກຕ້ອງການຝຶກດ້ວຍກໍຕ້ອງການ 8 ໃບຂຶ້ນໄປ. ເຫດຜົນທີ່ LoRA ແລະ QLoRA ໄດ້ຮັບຄວາມສົນໃຈກໍຍ້ອນວ່າສາມາດຫຼຸດການໃຊ້ VRAM ໄດ້ຢ່າງຫຼວງຫຼາຍ. ## Cloud vs On-premises GPU ມີລາຄາແພງ ໂດຍ NVIDIA H100 1 ໃບ ມີລາຄາຫຼາຍລ້ານເຢນ. ດ້ວຍເຫດນີ້ ຫຼາຍບໍລິສັດຈຶ່ງໃຊ້ Cloud GPU(AWS, GCP, Azure)ແບບ on-demand. ໃນທາງກົງກັນຂ້າມ ໃນກໍລະນີທີ່ດຳເນີນການ inference ຈຳນວນຫຼວງຫຼາຍຢ່າງຕໍ່ເນື່ອງ on-premises ອາດມີປະສິດທິພາບດ້ານຕົ້ນທຶນດີກວ່າ ແລະ ການຕັດສິນໃຈນີ້ມີຄວາມສຳຄັນໃນການດຳເນີນງານ LLM ແບບ local.


AI chatbot ແມ່ນຊອບແວທີ່ໃຊ້ການປະມວນຜົນພາສາທຳມະຊາດ (NLP) ແລະ LLM ເພື່ອດຳເນີນການສົນທະນາກັບມະນຸດໂດຍອັດຕະໂນມັດ. ແຕກຕ່າງຈາກ chatbot ແບບ rule-based ແບບດັ້ງເດີມ, ຈຸດເດັ່ນຂອງມັນຄືສາມາດເຂົ້າໃຈບໍລິບົດແລະຕອບສະໜອງຕໍ່ຄຳຖາມທີ່ບໍ່ໄດ້ກຳນົດໄວ້ລ່ວງໜ້າໄດ້.

ຮາລູຊິເນຊັນ (Hallucination) ແມ່ນປະກົດການທີ່ AI model ສ້າງຂໍ້ມູນທີ່ບໍ່ອີງໃສ່ຄວາມເປັນຈິງ ຄືກັບວ່າຂໍ້ມູນນັ້ນຖືກຕ້ອງ. ປະກົດການນີ້ເກີດຈາກກົນໄກທີ່ LLM ສ້າງຂໍ້ຄວາມທີ່ "ໜ້າເຊື່ອຖື" ຈາກຮູບແບບຂໍ້ມູນການຝຶກສອນ, ເຊິ່ງເຮັດໃຫ້ການກຳຈັດອອກຢ່າງສົມບູນເປັນເລື່ອງຍາກ.

ການປັບແຕ່ງລະອຽດ (Fine-Tuning) ແມ່ນຂະບວນການທີ່ນຳເອົາຂໍ້ມູນການຮຽນຮູ້ເພີ່ມເຕີມມາໃຫ້ກັບໂມເດລ Machine Learning ທີ່ຜ່ານການຮຽນຮູ້ລ່ວງໜ້າແລ້ວ ເພື່ອປັບໃຫ້ເໝາະສົມກັບວຽກງານ ຫຼື ໂດເມນສະເພາະໃດໜຶ່ງ.


PEFT (Parameter-Efficient Fine-Tuning) ຄືຫຍັງ? ເທັກໂນໂລຊີທີ່ຫຼຸດຕົ້ນທຶນການປັບແຕ່ງ AI Model ລົງ 90%

LLM (Large Language Model) ແມ່ນຊື່ເອີ້ນລວມຂອງໂມເດລ neural network ທີ່ມີພາລາມິເຕີຈຳນວນຫຼາຍພັນລ້ານຫາຫຼາຍລ້ານລ້ານຕົວ ຊຶ່ງໄດ້ຮັບການຝຶກອົບຮົມລ່ວງໜ້າດ້ວຍຂໍ້ມູນຂໍ້ຄວາມຈຳນວນຫຼວງຫຼາຍ ແລະ ສາມາດເຂົ້າໃຈ ແລະ ສ້າງພາສາທຳມະຊາດໄດ້ດ້ວຍຄວາມຖືກຕ້ອງສູງ.