ວິທີການປັບປຸງທີ່ຫຼຸດຄວາມແມ່ນຍຳຂອງ parameter ຂອງໂມເດລຈາກ 16bit ລົງໄປເປັນ 4bit ເປັນຕົ້ນ ເພື່ອບີບອັດຂະໜາດ ແລະເປີດໃຫ້ສາມາດ inference ໄດ້ດ້ວຍຊັບພະຍາກອນການຄຳນວນທີ່ຈຳກັດ.
ການ Quantization (Quantization) ແມ່ນວິທີການ Optimization ທີ່ຫຼຸດຄວາມແມ່ນຍຳທາງຕົວເລກຂອງ Weight Parameter ຂອງ Model (ຕົວຢ່າງ: 32bit Floating Point → 4bit Integer) ເພື່ອບີບອັດຂະໜາດ Model ແລະ ການໃຊ້ Memory.
ຄ້າຍຄືກັບການທີ່ຄຸນນະພາບຮູບພາບຫຼຸດລົງແລ້ວຂະໜາດໄຟລ໌ກໍ່ນ້ອຍລົງ. ປະລິມານຂໍ້ມູນຕໍ່ Parameter ໜຶ່ງໜ່ວຍຈະຫຼຸດລົງ, ແຕ່ໂດຍລວມແລ້ວ Model ຍັງຮັກສາປະສິດທິພາບໄດ້ຢ່າງໜ້າແປກໃຈ. ຖ້າ Quantize Model ທີ່ມີ 70B Parameter ດ້ວຍ 4bit, ການໃຊ້ VRAM ຈະຫຼຸດຈາກປະມານ 140GB ລົງມາເປັນປະມານ 35GB, ເຮັດໃຫ້ສາມາດ Inference ໄດ້ໂດຍບໍ່ຕ້ອງໃຊ້ GPU Cluster ທີ່ລາຄາແພງ.
| ວິທີການ | ລັກສະນະ |
|---|---|
| Post-Training Quantization (PTQ) | Quantize Model ທີ່ຝຶກສອນແລ້ວໂດຍກົງ. ສະດວກສະບາຍ ແຕ່ອາດມີການຫຼຸດລົງຂອງຄວາມແມ່ນຍຳຫຼາຍ |
| Quantization-Aware Training (QAT) | ຝຶກສອນໂດຍຄຳນຶງເຖິງການ Quantization. ມີຄວາມແມ່ນຍຳສູງກວ່າ PTQ ແຕ່ຕ້ອງການຕົ້ນທຶນໃນການຝຶກສອນ |
| GPTQ / AWQ / GGUF | Format ການ Quantization ທີ່ Optimize ສຳລັບ LLM. ແຜ່ຫຼາຍໃນຖານະ Format ການແຈກຢາຍ Local LLM |
QLoRA ແມ່ນວິທີການທີ່ລວມເອົາການ Quantization ນີ້ກັບ LoRA ເຂົ້າດ້ວຍກັນ, ສາມາດດຳເນີນການ Fine-tuning ໃນສະຖານະທີ່ Quantize ເປັນ 4bit ໄດ້.
ມີຜົນການຄົ້ນຄວ້າຫຼາຍຊິ້ນລາຍງານວ່າ "ການ Quantize Model ຂະໜາດໃຫຍ່" ມີປະສິດທິພາບສູງກວ່າ "ການໃຊ້ Model ຂະໜາດນ້ອຍດ້ວຍຄວາມແມ່ນຍຳສູງ". ໃນເວລາຄັດເລືອກ Model ໃນສະພາບແວດລ້ອມ Edge AI, ຈະຕ້ອງຄົ້ນຫາວິທີແກ້ໄຂທີ່ດີທີ່ສຸດດ້ວຍການປະສົມລະຫວ່າງຂະໜາດ Model ແລະ ຈຳນວນ Bit ຂອງການ Quantization.


ການປັບຂະໜາດໃນເວລາອະນຸມານ (Inference-time Scaling) ແມ່ນເຕັກນິກທີ່ເພີ່ມຫຼືຫຼຸດປະລິມານການຄຳນວນໃນຂັ້ນຕອນການອະນຸມານຂອງໂມເດລຢ່າງເໝາະສົມ ໂດຍໃຊ້ "ຂັ້ນຕອນການຄິດ" ຫຼາຍຂຶ້ນສຳລັບບັນຫາທີ່ຍາກ ແລະ ຕອບທັນທີສຳລັບບັນຫາທີ່ງ່າຍ.

Remote Sensing ແມ່ນຄຳສັບລວມທີ່ໃຊ້ເອີ້ນເຕັກໂນໂລຊີທີ່ວັດແທກການສະທ້ອນ ແລະ ການແຜ່ລັງສີຂອງຄື້ນແມ່ເຫຼັກໄຟຟ້າຈາກດາວທຽມ, ອາກາດຍານ, ໂດຣນ ແລະ ອື່ນໆ ທີ່ຕິດຕັ້ງເຊັນເຊີ, ໂດຍບໍ່ຕ້ອງສຳຜັດກັບວັດຖຸໂດຍກົງ, ເພື່ອເກັບກຳ ແລະ ວິເຄາະສະພາບຂອງພື້ນຜິວໂລກ ແລະ ບັນຍາກາດ.

ສູດການຄິດໄລ່ທີ່ລວມຂໍ້ຄວາມດ້ວຍຮູບແບບທີ່ປາກົດເລື້ອຍໆ ແລະ ແບ່ງອອກເປັນໜ່ວຍ subword. ມັນສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ LLM, ແລະ ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ, ການຂາດແຄນຄຳສັບສະເພາະໃນ vocabulary ຈະເຮັດໃຫ້ເກີດການແຍກລະດັບ byte.


ການປຽບທຽບການນຳໃຊ້ Local LLM / SLM — ການໃຊ້ AI ໂດຍບໍ່ຂຶ້ນກັບ Cloud API