ເຕັກໂນໂລຊີການບີບອັດໜ່ວຍຄວາມຈຳສຳລັບ LLM ທີ່ພັດທະນາໂດຍ Google. ຫຼຸດຜ່ອນການໃຊ້ໜ່ວຍຄວາມຈຳໄດ້ສູງສຸດເຖິງ 1/6 ດ້ວຍການ Quantization ແລະ ເພີ່ມຄວາມໄວໃນການ Inference ໄດ້ສູງສຸດເຖິງ 8 ເທົ່າ.
TurboQuant ແມ່ນເທັກໂນໂລຊີການບີບອັດໜ່ວຍຄວາມຈຳສຳລັບ[LLM (Large Language Model)](/glossary/llm)ທີ່ວ່າກັນວ່າ Google ເປັນຜູ້ພັດທະນາ. ຢ່າງໃດກໍຕາມ, ໃນຂະນະທີ່ຂຽນບົດຄວາມນີ້, ຍັງບໍ່ທັນໄດ້ຮັບການຢືນຢັນຢ່າງເປັນທາງການຈາກ Google ວ່າມີເທັກໂນໂລຊີທີ່ໃຊ້ຊື່ນີ້, ດັ່ງນັ້ນຈຶ່ງຕ້ອງລະວັງໃນດ້ານຄວາມຖືກຕ້ອງຂອງຂໍ້ມູນ. ໂດຍທົ່ວໄປ, ການນຳໃຊ້[Quantization (ການຄວອນໄຕເຊຊັນ)](/glossary/quantization)ສາມາດຫຼຸດຜ່ອນການໃຊ້ໜ່ວຍຄວາມຈຳຂອງໂມເດລໄດ້ຢ່າງຫຼວງຫຼາຍ ແລະ ປັບປຸງຄວາມໄວໃນການ inference ໄດ້, ແລະ ທ່າມກາງການຂະຫຍາຍຕົວຢ່າງໄວວາຂອງ AI model ຂະໜາດໃຫຍ່, ເທັກໂນໂລຊີນີ້ກຳລັງໄດ້ຮັບຄວາມສົນໃຈໃນຖານະເປັນວິທີການປັບປຸງທັງຕົ້ນທຶນການ deploy ແລະ latency ໃນເວລາດຽວກັນ. ## ເປັນຫຍັງການບີບອັດໜ່ວຍຄວາມຈຳຈຶ່ງສຳຄັນໃນຕອນນີ້ ການປັບປຸງປະສິດທິພາບຂອງ LLM ມີຄວາມສຳພັນທີ່ແຍກອອກຈາກກັນບໍ່ໄດ້ກັບການເພີ່ມຂຶ້ນຂອງຈຳນວນ parameter ຂອງໂມເດລ. ຢ່າງໃດກໍຕາມ, ຍິ່ງ parameter ເພີ່ມຂຶ້ນ, ໜ່ວຍຄວາມຈຳ[GPU (Graphics Processing Unit)](/glossary/gpu)ທີ່ຕ້ອງການໃນຊ່ວງ inference ກໍຍິ່ງພອງໂຕຂຶ້ນ, ສົ່ງຜົນໃຫ້ຕົ້ນທຶນການດຳເນີນງານຕົວຈິງເພີ່ມຂຶ້ນຢ່າງຮວດໄວ. ໂດຍສະເພາະໃນວຽກງານທີ່ຕ້ອງການ[Reasoning Model (ໂມເດລການໃຫ້ເຫດຜົນ)](/glossary/reasoning-model)ຫຼື[Multi-step Reasoning (ການໃຫ້ເຫດຜົນຫຼາຍຂັ້ນຕອນ)](/glossary/multi-step-reasoning), ປະລິມານໜ່ວຍຄວາມຈຳທີ່ໃຊ້ໃນການ inference ຄັ້ງດຽວມີແນວໂນ້ມທີ່ຈະໃຫຍ່ຂຶ້ນຢ່າງຫຼວງຫຼາຍ. ວິທີການ quantization ແບບດັ້ງເດີມກໍສາມາດຫຼຸດຜ່ອນໜ່ວຍຄວາມຈຳໄດ້, ແຕ່ຕ້ອງປະເຊີນກັບ trade-off ກັບການເສື່ອມຄຸນນະພາບຢູ່ຕະຫຼອດ. ການອອກແບບທີ່ຮັບມືກັບສິ່ງທ້າທາຍເຫຼົ່ານີ້ຢ່າງຕົງໄປຕົງມາ, ໂດຍມຸ່ງໝາຍທີ່ຈະຮັກສາຄວາມຖືກຕ້ອງໄວ້ພ້ອມກັບບັນລຸທັງອັດຕາການບີບອັດ ແລະ ຄວາມໄວ, ຈຶ່ງເປັນສິ່ງທີ່ຕ້ອງການ. ## ກົນໄກທາງເທັກນິກ ຫົວໃຈຂອງເທັກໂນໂລຊີ quantization ປະເພດນີ້ຢູ່ທີ່ຂະບວນການ quantization ທີ່ແປງ weight ຂອງໂມເດລໃຫ້ເປັນການສະແດງຜົນແບບ low-bit. ໂດຍທົ່ວໄປ, weight ຂອງ LLM ຈະຖືກເກັບໄວ້ໃນຮູບແບບ FP32 (32-bit floating point) ຫຼື BF16 (16-bit), ແຕ່ຈະຖືກບີບອັດໃຫ້ເປັນ bit ທີ່ຕ່ຳກວ່ານັ້ນ. ສິ່ງທີ່ສຳຄັນໃນຂະບວນການນີ້ບໍ່ແມ່ນການ rounding ແບບງ່າຍໆ, ແຕ່ເປັນ adaptive quantization scheme ທີ່ຄຳນຶງເຖິງຄວາມອ່ອນໄຫວຂອງແຕ່ລະ layer. ເມື່ອສະຫຼຸບຄຸນລັກສະນະສະເພາະ, ມີດັ່ງຕໍ່ໄປນີ້. - **ການວິເຄາະຄວາມອ່ອນໄຫວຕາມ layer**: ແທນທີ່ຈະບີບອັດໂມເດລທັງໝົດຢ່າງເທົ່າທຽມກັນ, layer ທີ່ມີຜົນກະທົບຫຼາຍຕໍ່ຄວາມຖືກຕ້ອງຈະໃຊ້ high-bit, ໃນຂະນະທີ່ layer ທີ່ມີຜົນກະທົບໜ້ອຍຈະໃຊ້ low-bit ໃນການ quantize - **ການ optimize kernel**: ຕິດຕັ້ງ kernel ສະເພາະສຳລັບການດຳເນີນການຄຳນວນຫຼັງ quantization ຢ່າງມີປະສິດທິພາບເທິງ GPU, ເພື່ອແກ້ໄຂ bottleneck ຂອງ memory bandwidth - **ການລວມເຂົ້າກັບການບີບອັດ cache**: ໂດຍລວມ KV cache (ພື້ນທີ່ທີ່ເກັບ intermediate representation ໃນຊ່ວງ inference) ໄວ້ໃນເປົ້າໝາຍການບີບອັດດ້ວຍ, ຈຶ່ງຊ່ວຍເພີ່ມປະສິດທິພາບໜ່ວຍຄວາມຈຳໃນການປະມວນຜົນ context ຍາວ ດ້ວຍການອອກແບບນີ້, ການດຳເນີນງານໃນສະພາບແວດລ້ອມທີ່ຊັບພະຍາກອນຈຳກັດ ເຊັ່ນ: [Local LLM](/glossary/local-llm) ຫຼື [Edge AI](/glossary/edge-ai) ຈຶ່ງກາຍເປັນທາງເລືອກທີ່ເປັນໄປໄດ້ຕົວຈິງ. ## ສະຖານະການທີ່ຄາດວ່າຈະໄດ້ຮັບປະໂຫຍດ ຜູ້ທີ່ໄດ້ຮັບປະໂຫຍດຫຼາຍທີ່ສຸດຈາກເທັກໂນໂລຊີການບີບອັດໜ່ວຍຄວາມຈຳດັ່ງກ່າວ ຄືສະພາບແວດລ້ອມການຜະລິດຕົວຈິງທີ່ທັງ latency ແລະ ຕົ້ນທຶນຖືກກວດສອບຢ່າງເຂັ້ມງວດ. ຕົວຢ່າງ, ໃນ[Multi-agent System (ລະບົບຫຼາຍ agent)](/glossary/multi-agent-system)ທີ່[AI agent](/glossary/ai-agent)ເຮັດວຽກຮ່ວມກັນກັບໂມເດລຫຼາຍໂຕ, ຕົ້ນທຶນ inference ຂອງແຕ່ລະໂຕສະສົມກັນ, ດັ່ງນັ້ນຜົນຂອງການຫຼຸດຜ່ອນການໃຊ້ໜ່ວຍຄວາມຈຳຕໍ່ຄັ້ງຈຶ່ງມີຄວາມສຳຄັນຫຼາຍ. ໃນທຳນອງດຽວກັນ, ໃນ architecture ທີ່ເຮັດ retrieval ແລະ generation ຊ້ຳໆ ເຊັ່ນ [Agentic RAG](/glossary/agentic-rag), ຜົນຂອງການເພີ່ມ throughput ກໍປາກົດຊັດເຈນ. ນອກຈາກນີ້, ຍັງມີປະສິດທິຜົນໃນການ serve [Foundation Model (ໂມເດລພື້ນຖານ)](/glossary/foundation-model)ທີ່ຜ່ານ[Fine-tuning](/glossary/fine-tuning)ແລ້ວ, ຊ່ວຍໃຫ້ສາມາດປະມວນຜົນ request ຈຳນວນຫຼາຍຂຶ້ນໃນຮູບແບບ parallel ດ້ວຍ GPU resource ດຽວກັນ. ມີຫຼາຍກໍລະນີທີ່ຕົ້ນທຶນ infrastructure ທີ່ບໍ່ໄດ້ສົນໃຈໃນຂັ້ນຕອນ[PoC (Proof of Concept)](/glossary/poc)ກາຍເປັນບັນຫາທີ່ຊັດເຈນຢ່າງກະທັນຫັນໃນ scale ການຜະລິດ. ເທັກໂນໂລຊີ quantization ສາມາດຖືໄດ້ວ່າເປັນໜຶ່ງໃນທາງເລືອກທາງເທັກນິກທີ່ຊ່ວຍຕື່ມຊ່ອງຫວ່າງນັ້ນ. ## ຈຸດທີ່ຄວນຮູ້ໃນຕອນນຳໃຊ້ ສິ່ງທີ່ສາມາດເວົ້າໄດ້ກ່ຽວກັບເທັກໂນໂລຊີການບີບອັດໜ່ວຍຄວາມຈຳໂດຍທົ່ວ



ວິທີການປັບປຸງທີ່ຫຼຸດຄວາມແມ່ນຍຳຂອງ parameter ຂອງໂມເດລຈາກ 16bit ລົງໄປເປັນ 4bit ເປັນຕົ້ນ ເພື່ອບີບອັດຂະໜາດ ແລະເປີດໃຫ້ສາມາດ inference ໄດ້ດ້ວຍຊັບພະຍາກອນການຄຳນວນທີ່ຈຳກັດ.

ເຕັກນິກການໂຈມຕີທີ່ໃຊ້ການປ້ອນຂໍ້ມູນທີ່ເປັນອັນຕະລາຍເພື່ອຄວບຄຸມການເຮັດວຽກຂອງ LLM ໃຫ້ໄປໃນທິດທາງທີ່ບໍ່ໄດ້ຕັ້ງໃຈ. ຖືກຈັດປະເພດເປັນຄວາມສ່ຽງສຳຄັນທີ່ສຸດໃນ OWASP LLM Top 10.

LLM (Large Language Model) ແມ່ນຊື່ເອີ້ນລວມຂອງໂມເດລ neural network ທີ່ມີພາລາມິເຕີຈຳນວນຫຼາຍພັນລ້ານຫາຫຼາຍລ້ານລ້ານຕົວ ຊຶ່ງໄດ້ຮັບການຝຶກອົບຮົມລ່ວງໜ້າດ້ວຍຂໍ້ມູນຂໍ້ຄວາມຈຳນວນຫຼວງຫຼາຍ ແລະ ສາມາດເຂົ້າໃຈ ແລະ ສ້າງພາສາທຳມະຊາດໄດ້ດ້ວຍຄວາມຖືກຕ້ອງສູງ.

ການຄິດໄລ່ຫຼາຍຂັ້ນຕອນ (Multi-step Reasoning) ແມ່ນຮູບແບບການຄິດໄລ່ທີ່ LLM ບໍ່ໄດ້ສ້າງຄຳຕອບໃນຄັ້ງດຽວ ແຕ່ຜ່ານຂັ້ນຕອນກາງຫຼາຍຂັ້ນ (ເຊັ່ນ: ການສ້າງຄຳຖາມຍ່ອຍ, ການກວດສອບຄຳຕອບບາງສ່ວນ, ການດຶງຂໍ້ມູນເພີ່ມເຕີມ ແລະ ອື່ນໆ) ເພື່ອໄປເຖິງຄຳຕອບສຸດທ້າຍ.

ການປັບແຕ່ງລະອຽດ (Fine-Tuning) ແມ່ນຂະບວນການທີ່ນຳເອົາຂໍ້ມູນການຮຽນຮູ້ເພີ່ມເຕີມມາໃຫ້ກັບໂມເດລ Machine Learning ທີ່ຜ່ານການຮຽນຮູ້ລ່ວງໜ້າແລ້ວ ເພື່ອປັບໃຫ້ເໝາະສົມກັບວຽກງານ ຫຼື ໂດເມນສະເພາະໃດໜຶ່ງ.