ວິທີການປັບປຸງທີ່ຫຼຸດຄວາມແມ່ນຍຳຂອງ parameter ຂອງໂມເດລຈາກ 16bit ລົງໄປເປັນ 4bit ເປັນຕົ້ນ ເພື່ອບີບອັດຂະໜາດ ແລະເປີດໃຫ້ສາມາດ inference ໄດ້ດ້ວຍຊັບພະຍາກອນການຄຳນວນທີ່ຈຳກັດ.
## ການ Quantization ແມ່ນຫຍັງ ການ Quantization (Quantization) ແມ່ນວິທີການ Optimization ທີ່ຫຼຸດຄວາມແມ່ນຍຳທາງຕົວເລກຂອງ Weight Parameter ຂອງ Model (ຕົວຢ່າງ: 32bit Floating Point → 4bit Integer) ເພື່ອບີບອັດຂະໜາດ Model ແລະ ການໃຊ້ Memory. ### ຄວາມເຂົ້າໃຈໂດຍຮູບພາບ ຄ້າຍຄືກັບການທີ່ຄຸນນະພາບຮູບພາບຫຼຸດລົງແລ້ວຂະໜາດໄຟລ໌ກໍ່ນ້ອຍລົງ. ປະລິມານຂໍ້ມູນຕໍ່ Parameter ໜຶ່ງໜ່ວຍຈະຫຼຸດລົງ, ແຕ່ໂດຍລວມແລ້ວ Model ຍັງຮັກສາປະສິດທິພາບໄດ້ຢ່າງໜ້າແປກໃຈ. ຖ້າ Quantize Model ທີ່ມີ 70B Parameter ດ້ວຍ 4bit, ການໃຊ້ VRAM ຈະຫຼຸດຈາກປະມານ 140GB ລົງມາເປັນປະມານ 35GB, ເຮັດໃຫ້ສາມາດ Inference ໄດ້ໂດຍບໍ່ຕ້ອງໃຊ້ GPU Cluster ທີ່ລາຄາແພງ. ### ປະເພດຂອງການ Quantization | ວິທີການ | ລັກສະນະ | |------|------| | Post-Training Quantization (PTQ) | Quantize Model ທີ່ຝຶກສອນແລ້ວໂດຍກົງ. ສະດວກສະບາຍ ແຕ່ອາດມີການຫຼຸດລົງຂອງຄວາມແມ່ນຍຳຫຼາຍ | | Quantization-Aware Training (QAT) | ຝຶກສອນໂດຍຄຳນຶງເຖິງການ Quantization. ມີຄວາມແມ່ນຍຳສູງກວ່າ PTQ ແຕ່ຕ້ອງການຕົ້ນທຶນໃນການຝຶກສອນ | | GPTQ / AWQ / GGUF | Format ການ Quantization ທີ່ Optimize ສຳລັບ LLM. ແຜ່ຫຼາຍໃນຖານະ Format ການແຈກຢາຍ Local LLM | QLoRA ແມ່ນວິທີການທີ່ລວມເອົາການ Quantization ນີ້ກັບ LoRA ເຂົ້າດ້ວຍກັນ, ສາມາດດຳເນີນການ Fine-tuning ໃນສະຖານະທີ່ Quantize ເປັນ 4bit ໄດ້. ### ເກນການຕັດສິນໃຈໃນການປະຕິບັດຕົວຈິງ ມີຜົນການຄົ້ນຄວ້າຫຼາຍຊິ້ນລາຍງານວ່າ "ການ Quantize Model ຂະໜາດໃຫຍ່" ມີປະສິດທິພາບສູງກວ່າ "ການໃຊ້ Model ຂະໜາດນ້ອຍດ້ວຍຄວາມແມ່ນຍຳສູງ". ໃນເວລາຄັດເລືອກ Model ໃນສະພາບແວດລ້ອມ Edge AI, ຈະຕ້ອງຄົ້ນຫາວິທີແກ້ໄຂທີ່ດີທີ່ສຸດດ້ວຍການປະສົມລະຫວ່າງຂະໜາດ Model ແລະ ຈຳນວນ Bit ຂອງການ Quantization.


ການປັບຂະໜາດໃນເວລາອະນຸມານ (Inference-time Scaling) ແມ່ນເຕັກນິກທີ່ເພີ່ມຫຼືຫຼຸດປະລິມານການຄຳນວນໃນຂັ້ນຕອນການອະນຸມານຂອງໂມເດລຢ່າງເໝາະສົມ ໂດຍໃຊ້ "ຂັ້ນຕອນການຄິດ" ຫຼາຍຂຶ້ນສຳລັບບັນຫາທີ່ຍາກ ແລະ ຕອບທັນທີສຳລັບບັນຫາທີ່ງ່າຍ.

Remote Sensing ແມ່ນຄຳສັບລວມທີ່ໃຊ້ເອີ້ນເຕັກໂນໂລຊີທີ່ວັດແທກການສະທ້ອນ ແລະ ການແຜ່ລັງສີຂອງຄື້ນແມ່ເຫຼັກໄຟຟ້າຈາກດາວທຽມ, ອາກາດຍານ, ໂດຣນ ແລະ ອື່ນໆ ທີ່ຕິດຕັ້ງເຊັນເຊີ, ໂດຍບໍ່ຕ້ອງສຳຜັດກັບວັດຖຸໂດຍກົງ, ເພື່ອເກັບກຳ ແລະ ວິເຄາະສະພາບຂອງພື້ນຜິວໂລກ ແລະ ບັນຍາກາດ.

ການປັບແຕ່ງລະອຽດ (Fine-Tuning) ແມ່ນຂະບວນການທີ່ນຳເອົາຂໍ້ມູນການຮຽນຮູ້ເພີ່ມເຕີມມາໃຫ້ກັບໂມເດລ Machine Learning ທີ່ຜ່ານການຮຽນຮູ້ລ່ວງໜ້າແລ້ວ ເພື່ອປັບໃຫ້ເໝາະສົມກັບວຽກງານ ຫຼື ໂດເມນສະເພາະໃດໜຶ່ງ.


ການປຽບທຽບການນຳໃຊ້ Local LLM / SLM — ການໃຊ້ AI ໂດຍບໍ່ຂຶ້ນກັບ Cloud API