ການຄວາຍຕາ (Quantization)

ການຄວາຍຕາ (Quantization)

ວິທີການປັບປຸງທີ່ຫຼຸດຄວາມແມ່ນຍຳຂອງ parameter ຂອງໂມເດລຈາກ 16bit ລົງໄປເປັນ 4bit ເປັນຕົ້ນ ເພື່ອບີບອັດຂະໜາດ ແລະເປີດໃຫ້ສາມາດ inference ໄດ້ດ້ວຍຊັບພະຍາກອນການຄຳນວນທີ່ຈຳກັດ.

ການ Quantization ແມ່ນຫຍັງ

ການ Quantization (Quantization) ແມ່ນວິທີການ Optimization ທີ່ຫຼຸດຄວາມແມ່ນຍຳທາງຕົວເລກຂອງ Weight Parameter ຂອງ Model (ຕົວຢ່າງ: 32bit Floating Point → 4bit Integer) ເພື່ອບີບອັດຂະໜາດ Model ແລະ ການໃຊ້ Memory.

ຄວາມເຂົ້າໃຈໂດຍຮູບ​ພາບ

ຄ້າຍຄືກັບການທີ່ຄຸນນະພາບຮູບພາບຫຼຸດລົງແລ້ວຂະໜາດໄຟລ໌ກໍ່ນ້ອຍລົງ. ປະລິມານຂໍ້ມູນຕໍ່ Parameter ໜຶ່ງໜ່ວຍຈະຫຼຸດລົງ, ແຕ່ໂດຍລວມແລ້ວ Model ຍັງຮັກສາປະສິດທິພາບໄດ້ຢ່າງໜ້າແປກໃຈ. ຖ້າ Quantize Model ທີ່ມີ 70B Parameter ດ້ວຍ 4bit, ການໃຊ້ VRAM ຈະຫຼຸດຈາກປະມານ 140GB ລົງມາເປັນປະມານ 35GB, ເຮັດໃຫ້ສາມາດ Inference ໄດ້ໂດຍບໍ່ຕ້ອງໃຊ້ GPU Cluster ທີ່ລາຄາແພງ.

ປະເພດຂອງການ Quantization

ວິທີການລັກສະນະ
Post-Training Quantization (PTQ)Quantize Model ທີ່ຝຶກສອນແລ້ວໂດຍກົງ. ສະດວກສະບາຍ ແຕ່ອາດມີການຫຼຸດລົງຂອງຄວາມແມ່ນຍຳຫຼາຍ
Quantization-Aware Training (QAT)ຝຶກສອນໂດຍຄຳນຶງເຖິງການ Quantization. ມີຄວາມແມ່ນຍຳສູງກວ່າ PTQ ແຕ່ຕ້ອງການຕົ້ນທຶນໃນການຝຶກສອນ
GPTQ / AWQ / GGUFFormat ການ Quantization ທີ່ Optimize ສຳລັບ LLM. ແຜ່ຫຼາຍໃນຖານະ Format ການແຈກຢາຍ Local LLM

QLoRA ແມ່ນວິທີການທີ່ລວມເອົາການ Quantization ນີ້ກັບ LoRA ເຂົ້າດ້ວຍກັນ, ສາມາດດຳເນີນການ Fine-tuning ໃນສະຖານະທີ່ Quantize ເປັນ 4bit ໄດ້.

ເກນການຕັດສິນໃຈໃນການປະຕິບັດຕົວຈິງ

ມີຜົນການຄົ້ນຄວ້າຫຼາຍຊິ້ນລາຍງານວ່າ "ການ Quantize Model ຂະໜາດໃຫຍ່" ມີປະສິດທິພາບສູງກວ່າ "ການໃຊ້ Model ຂະໜາດນ້ອຍດ້ວຍຄວາມແມ່ນຍຳສູງ". ໃນເວລາຄັດເລືອກ Model ໃນສະພາບແວດລ້ອມ Edge AI, ຈະຕ້ອງຄົ້ນຫາວິທີແກ້ໄຂທີ່ດີທີ່ສຸດດ້ວຍການປະສົມລະຫວ່າງຂະໜາດ Model ແລະ ຈຳນວນ Bit ຂອງການ Quantization.