ການຖອດລະຫັດແບບຄາດເດົາ (Speculative Decoding) ແມ່ນຫຍັງ? ຄຳສັບ AI, DX & Security ພ້ອມແຜນພາບ

ເຕັກນິກການເລັ່ງການອະນຸມານທີ່ໂມເດລ draft ຂະໜາດນ້ອຍສະເໜີຫຼາຍ token ລ່ວງໜ້າ ແລະ ໂມເດລຂະໜາດໃຫຍ່ກວດສອບຢ່າງຂະໜານກັນ.

Speculative Decoding ແມ່ນຫຍັງ

Speculative Decoding ແມ່ນເຕັກນິກທີ່ "draft model" ຂະໜາດນ້ອຍສະເໜີ token ຫຼາຍອັນລ່ວງໜ້າ, ແລ້ວ "verification model" ຂະໜາດໃຫຍ່ກວດສອບ ແລະ ຕັດສິນຮັບ/ປະຕິເສດ token ເຫຼົ່ານັ້ນແບບຂະໜານ, ເຮັດໃຫ້ຄວາມໄວໃນການ inference ສູງຂຶ້ນ 2〜3 ເທົ່າ.

ພາບລວມຂອງກົນໄກ

ການ inference ຂອງ LLM ທົ່ວໄປຈະສ້າງ token ທີລະອັນຕາມລຳດັບ, ດັ່ງນັ້ນຍິ່ງ model ໃຫຍ່ຂຶ້ນ, ຄ່າໃຊ້ຈ່າຍໃນການຄຳນວນແຕ່ລະຂັ້ນຕອນກໍຍິ່ງສູງຂຶ້ນ ແລະ ການຕອບສະໜອງກໍຊ້າລົງ. Speculative Decoding ຊ່ວຍຫຼຸດຜ່ອນຄວາມເປັນລຳດັບນີ້.

Draft model (ຂະໜາດນ້ອຍ, ຄວາມໄວສູງ) ສ້າງ token ລ່ວງໜ້າຫຼາຍ token ໃນຄັ້ງດຽວ
Verification model (ຂະໜາດໃຫຍ່, ຄວາມແມ່ນຍຳສູງ) ກວດສອບລຳດັບ token ທີ່ສະເໜີໄວ້ທັງໝົດໃນຄັ້ງດຽວ
Token ທີ່ຜ່ານການກວດສອບຈະຖືກຮັບໃຊ້ທັນທີ, ສ່ວນ token ທີ່ບໍ່ຜ່ານ, verification model ຈະສ້າງໃໝ່ຈາກຈຸດນັ້ນ

ຍິ່ງຄວາມເປັນໄປໄດ້ທີ່ການສະເໜີຂອງ draft model ຈະ "ຖືກຕ້ອງ" ສູງຂຶ້ນ, ຈຳນວນຄັ້ງທີ່ຕ້ອງເອີ້ນໃຊ້ verification model ກໍຍິ່ງຫຼຸດລົງ ແລະ ຜົນຂອງການເລັ່ງຄວາມໄວກໍຍິ່ງໃຫຍ່ຂຶ້ນ.

ຜົນກະທົບຕໍ່ຄຸນນະພາບຂອງຜົນລັບ

ຈຸດສຳຄັນຄືວ່າ Speculative Decoding ບໍ່ປ່ຽນແປງການແຈກຢາຍຜົນລັບຂອງ verification model. ໃນທາງຄະນິດສາດ, ຜົນລັບທີ່ໄດ້ຮັບຈະຄືກັນກັບກໍລະນີທີ່ບໍ່ມີ draft model, ດັ່ງນັ້ນຈຶ່ງສາມາດປັບປຸງຄວາມໄວໄດ້ໂດຍບໍ່ຕ້ອງເສຍສະລະຄຸນນະພາບ.

ກໍລະນີທີ່ເໝາະສົມກັບການນຳໃຊ້

ເຕັກນິກນີ້ມີປະສິດທິຜົນໂດຍສະເພາະໃນສະຖານະການທີ່ຕ້ອງການຮັກສາຄວາມແມ່ນຍຳສູງຂອງ model ຂະໜາດໃຫຍ່ ໃນຂະນະທີ່ຫຼຸດ latency ລົງ ເຊັ່ນ: ການຕອບສະໜອງແບບ real-time ຂອງ chatbot ຫຼື code completion. ເນື່ອງຈາກຍັງຊ່ວຍຫຼຸດຄ່າໃຊ້ຈ່າຍ GPU ອີກດ້ວຍ, ຈຶ່ງເປັນເຕັກນິກທີ່ຄວນພິຈາລະນາສຳລັບລະບົບ production ທີ່ inference cost ເປັນບັນຫາທ້າທາຍ.