GPU (Graphics Processing Unit) ແມ່ນຊິບເຊມີຄອນດັກເຕີທີ່ປະມວນຜົນການຄຳນວນຂະໜານຈຳນວນຫຼວງຫຼາຍໄດ້ຢ່າງວ່ອງໄວ. ເດີມທີຖືກອອກແບບມາສຳລັບການສ້າງຮູບພາບ, ແຕ່ຄວາມສາມາດໃນການຄຳນວນຂະໜານຂອງມັນເໝາະສົມກັບການຮຽນຮູ້ແລະການອ້າງເຫດຜົນຂອງ AI, ແລະໃນປັດຈຸບັນໄດ້ກາຍເປັນຮາດແວທີ່ຂາດບໍ່ໄດ້ສຳລັບການຝຶກອົບຮົມ (training) ແລະການ fine-tuning ຂອງ LLM.
CPU ຖືກປັບໃຫ້ເໝາະສົມສຳລັບການປະມວນຜົນຕາມລຳດັບທີ່ສັບສົນ ໂດຍມີຈຳນວນ core ປະມານສິບກວ່າໂຕ. ໃນທາງກົງກັນຂ້າມ GPU ສາມາດປະຕິບັດການຄຳນວນທີ່ງ່າຍດາຍໄດ້ພ້ອມກັນດ້ວຍ core ຫຼາຍພັນຫາຫຼາຍໝື່ນໂຕ. ການຝຶກ Neural Network ໂດຍພື້ນຖານແລ້ວແມ່ນການຄຳນວນ matrix ຊ້ຳໆ ແລະ ຮູບແບບການປະມວນຜົນນີ້ກົງກັບ parallel architecture ຂອງ GPU.
ຕົວຢ່າງເຊັ່ນ ໃນກໍລະນີທີ່ຝຶກ Dense Model ຂະໜາດ 70B parameter ຈຳເປັນຕ້ອງຄຳນວນ gradient ຂອງແຕ່ລະ parameter ແບບຂະໜານ. ການຄຳນວນທີ່ຕ້ອງໃຊ້ເວລາຫຼາຍເດືອນຫາກປະມວນຜົນຕາມລຳດັບດ້ວຍ CPU ສາມາດສຳເລັດໄດ້ພາຍໃນສອງສາມວັນຫາສອງສາມອາທິດດ້ວຍ GPU cluster.
ເມື່ອເວົ້າເຖິງ GPU ໃນສະພາບການຂອງ AI ສິ່ງທີ່ສຳຄັນເທົ່າກັບປະສິດທິພາບການຄຳນວນກໍຄື VRAM(Video RAM). ຈຳເປັນຕ້ອງໂຫຼດ weight ແລະ activation ທັງໝົດຂອງ model ໄວ້ໃນ VRAM ແລະ ຄວາມຈຸ VRAM ເປັນຕົວກຳນົດຂອບເຂດຈຳກັດຕົວຈິງຂອງຂະໜາດ model.
NVIDIA A100(80GB)1 ໃບ ສາມາດໂຫຼດໄດ້ປະມານ 40B parameter(ໃນກໍລະນີ FP16). ເພື່ອໃຊ້ງານ Dense Model ຂະໜາດ 70B ຕ້ອງການຢ່າງໜ້ອຍ 2 ໃບ ແລະ ຫາກຕ້ອງການຝຶກດ້ວຍກໍຕ້ອງການ 8 ໃບຂຶ້ນໄປ. ເຫດຜົນທີ່ LoRA ແລະ QLoRA ໄດ້ຮັບຄວາມສົນໃຈກໍຍ້ອນວ່າສາມາດຫຼຸດການໃຊ້ VRAM ໄດ້ຢ່າງຫຼວງຫຼາຍ.
GPU ມີລາຄາແພງ ໂດຍ NVIDIA H100 1 ໃບ ມີລາຄາຫຼາຍລ້ານເຢນ. ດ້ວຍເຫດນີ້ ຫຼາຍບໍລິສັດຈຶ່ງໃຊ້ Cloud GPU(AWS, GCP, Azure)ແບບ on-demand. ໃນທາງກົງກັນຂ້າມ ໃນກໍລະນີທີ່ດຳເນີນການ inference ຈຳນວນຫຼວງຫຼາຍຢ່າງຕໍ່ເນື່ອງ on-premises ອາດມີປະສິດທິພາບດ້ານຕົ້ນທຶນດີກວ່າ ແລະ ການຕັດສິນໃຈນີ້ມີຄວາມສຳຄັນໃນການດຳເນີນງານ LLM ແບບ local.


AI chatbot ແມ່ນຊອບແວທີ່ໃຊ້ການປະມວນຜົນພາສາທຳມະຊາດ (NLP) ແລະ LLM ເພື່ອດຳເນີນການສົນທະນາກັບມະນຸດໂດຍອັດຕະໂນມັດ. ແຕກຕ່າງຈາກ chatbot ແບບ rule-based ແບບດັ້ງເດີມ, ຈຸດເດັ່ນຂອງມັນຄືສາມາດເຂົ້າໃຈບໍລິບົດແລະຕອບສະໜອງຕໍ່ຄຳຖາມທີ່ບໍ່ໄດ້ກຳນົດໄວ້ລ່ວງໜ້າໄດ້.

ຮາລູຊິເນຊັນ (Hallucination) ແມ່ນປະກົດການທີ່ AI model ສ້າງຂໍ້ມູນທີ່ບໍ່ອີງໃສ່ຄວາມເປັນຈິງ ຄືກັບວ່າຂໍ້ມູນນັ້ນຖືກຕ້ອງ. ປະກົດການນີ້ເກີດຈາກກົນໄກທີ່ LLM ສ້າງຂໍ້ຄວາມທີ່ "ໜ້າເຊື່ອຖື" ຈາກຮູບແບບຂໍ້ມູນການຝຶກສອນ, ເຊິ່ງເຮັດໃຫ້ການກຳຈັດອອກຢ່າງສົມບູນເປັນເລື່ອງຍາກ.

ການປັບແຕ່ງລະອຽດ (Fine-Tuning) ແມ່ນຂະບວນການທີ່ນຳເອົາຂໍ້ມູນການຮຽນຮູ້ເພີ່ມເຕີມມາໃຫ້ກັບໂມເດລ Machine Learning ທີ່ຜ່ານການຮຽນຮູ້ລ່ວງໜ້າແລ້ວ ເພື່ອປັບໃຫ້ເໝາະສົມກັບວຽກງານ ຫຼື ໂດເມນສະເພາະໃດໜຶ່ງ.


PEFT (Parameter-Efficient Fine-Tuning) ຄືຫຍັງ? ເທັກໂນໂລຊີທີ່ຫຼຸດຕົ້ນທຶນການປັບແຕ່ງ AI Model ລົງ 90%