GPU（ຫົວໜ່ວຍປະມວນຜົນກຣາຟິກ） ແມ່ນຫຍັງ? ຄຳສັບ AI, DX & Security ພ້ອມແຜນພາບ

GPU (Graphics Processing Unit) ແມ່ນຊິບເຊມີຄອນດັກເຕີທີ່ປະມວນຜົນການຄຳນວນຂະໜານຈຳນວນຫຼວງຫຼາຍໄດ້ຢ່າງວ່ອງໄວ. ເດີມທີຖືກອອກແບບມາສຳລັບການສ້າງຮູບພາບ, ແຕ່ຄວາມສາມາດໃນການຄຳນວນຂະໜານຂອງມັນເໝາະສົມກັບການຮຽນຮູ້ແລະການອ້າງເຫດຜົນຂອງ AI, ແລະໃນປັດຈຸບັນໄດ້ກາຍເປັນຮາດແວທີ່ຂາດບໍ່ໄດ້ສຳລັບການຝຶກອົບຮົມ (training) ແລະການ fine-tuning ຂອງ LLM.

ເປັນຫຍັງຈຶ່ງໃຊ້ GPU ແທນ CPU

CPU ຖືກປັບໃຫ້ເໝາະສົມສຳລັບການປະມວນຜົນຕາມລຳດັບທີ່ສັບສົນ ໂດຍມີຈຳນວນ core ປະມານສິບກວ່າໂຕ. ໃນທາງກົງກັນຂ້າມ GPU ສາມາດປະຕິບັດການຄຳນວນທີ່ງ່າຍດາຍໄດ້ພ້ອມກັນດ້ວຍ core ຫຼາຍພັນຫາຫຼາຍໝື່ນໂຕ. ການຝຶກ Neural Network ໂດຍພື້ນຖານແລ້ວແມ່ນການຄຳນວນ matrix ຊ້ຳໆ ແລະ ຮູບແບບການປະມວນຜົນນີ້ກົງກັບ parallel architecture ຂອງ GPU.

ຕົວຢ່າງເຊັ່ນ ໃນກໍລະນີທີ່ຝຶກ Dense Model ຂະໜາດ 70B parameter ຈຳເປັນຕ້ອງຄຳນວນ gradient ຂອງແຕ່ລະ parameter ແບບຂະໜານ. ການຄຳນວນທີ່ຕ້ອງໃຊ້ເວລາຫຼາຍເດືອນຫາກປະມວນຜົນຕາມລຳດັບດ້ວຍ CPU ສາມາດສຳເລັດໄດ້ພາຍໃນສອງສາມວັນຫາສອງສາມອາທິດດ້ວຍ GPU cluster.

ຂໍ້ຈຳກັດຂອງ VRAM

ເມື່ອເວົ້າເຖິງ GPU ໃນສະພາບການຂອງ AI ສິ່ງທີ່ສຳຄັນເທົ່າກັບປະສິດທິພາບການຄຳນວນກໍຄື VRAM（Video RAM）. ຈຳເປັນຕ້ອງໂຫຼດ weight ແລະ activation ທັງໝົດຂອງ model ໄວ້ໃນ VRAM ແລະ ຄວາມຈຸ VRAM ເປັນຕົວກຳນົດຂອບເຂດຈຳກັດຕົວຈິງຂອງຂະໜາດ model.

NVIDIA A100（80GB）1 ໃບ ສາມາດໂຫຼດໄດ້ປະມານ 40B parameter（ໃນກໍລະນີ FP16）. ເພື່ອໃຊ້ງານ Dense Model ຂະໜາດ 70B ຕ້ອງການຢ່າງໜ້ອຍ 2 ໃບ ແລະ ຫາກຕ້ອງການຝຶກດ້ວຍກໍຕ້ອງການ 8 ໃບຂຶ້ນໄປ. ເຫດຜົນທີ່ LoRA ແລະ QLoRA ໄດ້ຮັບຄວາມສົນໃຈກໍຍ້ອນວ່າສາມາດຫຼຸດການໃຊ້ VRAM ໄດ້ຢ່າງຫຼວງຫຼາຍ.

Cloud vs On-premises

GPU ມີລາຄາແພງ ໂດຍ NVIDIA H100 1 ໃບ ມີລາຄາຫຼາຍລ້ານເຢນ. ດ້ວຍເຫດນີ້ ຫຼາຍບໍລິສັດຈຶ່ງໃຊ້ Cloud GPU（AWS, GCP, Azure）ແບບ on-demand. ໃນທາງກົງກັນຂ້າມ ໃນກໍລະນີທີ່ດຳເນີນການ inference ຈຳນວນຫຼວງຫຼາຍຢ່າງຕໍ່ເນື່ອງ on-premises ອາດມີປະສິດທິພາບດ້ານຕົ້ນທຶນດີກວ່າ ແລະ ການຕັດສິນໃຈນີ້ມີຄວາມສຳຄັນໃນການດຳເນີນງານ LLM ແບບ local.