ການປັບຂະໜາດໃນເວລາອະນຸມານ (Test-time Compute)

ການປັບຂະໜາດໃນເວລາອະນຸມານ (Test-time Compute)

ການປັບຂະໜາດໃນເວລາອະນຸມານ (Inference-time Scaling) ແມ່ນເຕັກນິກທີ່ເພີ່ມຫຼືຫຼຸດປະລິມານການຄຳນວນໃນຂັ້ນຕອນການອະນຸມານຂອງໂມເດລຢ່າງເໝາະສົມ ໂດຍໃຊ້ "ຂັ້ນຕອນການຄິດ" ຫຼາຍຂຶ້ນສຳລັບບັນຫາທີ່ຍາກ ແລະ ຕອບທັນທີສຳລັບບັນຫາທີ່ງ່າຍ.

ຂະຫຍາຍການຝຶກສອນ ຫຼື ຍືດການອະນຸມານ

ການປັບປຸງປະສິດທິພາບຂອງ LLM ແບບດັ້ງເດີມແມ່ນສຸມໃສ່ "ການ scaling ໃນຊ່ວງຝຶກສອນ" ເປັນຫຼັກ ໄດ້ແກ່ ຂໍ້ມູນທີ່ຫຼາຍຂຶ້ນ, ໂມເດລທີ່ໃຫຍ່ຂຶ້ນ, ແລະ ເວລາຝຶກສອນທີ່ຍາວນານຂຶ້ນ. ການວິວັດທະນາການຈາກ GPT-3 ໄປສູ່ GPT-4 ແມ່ນຕົວຢ່າງທີ່ຊັດເຈນຂອງແນວທາງນີ້.

ການ scaling ໃນຊ່ວງອະນຸມານມີແນວຄິດທີ່ແຕກຕ່າງກັນ. ຂະໜາດຂອງໂມເດລຍັງຄົງເດີມ, ແຕ່ປ່ຽນປະລິມານການຄຳນວນທີ່ໃຊ້ໃນຊ່ວງອະນຸມານຕາມຄວາມຍາກງ່າຍຂອງບັນຫາ. ຄຳຖາມວ່າ "ມື້ນີ້ອາກາດເປັນແນວໃດ?" ຕອບໄດ້ດ້ວຍຂັ້ນຕອນດຽວ, ໃນຂະນະທີ່ "ກວດສອບການພິສູດທາງຄະນິດສາດນີ້" ຕ້ອງໃຊ້ການອະນຸມານພາຍໃນຫຼາຍສິບຂັ້ນຕອນ. o1/o3 ຂອງ OpenAI ແລະ extended thinking ຂອງ Claude ຂອງ Anthropic ໄດ້ນຳໃຊ້ແນວທາງນີ້.

ກົນໄກການທຳງານ

ໂມເດລສ້າງ "thinking token" ພາຍໃນ ແລະ ຂະຫຍາຍຂະບວນການອະນຸມານຢ່າງຊັດເຈນຈົນກວ່າຈະໄດ້ຄຳຕອບສຸດທ້າຍ. ຈຸດທີ່ແຕກຕ່າງຈາກການສັ່ງ Chain-of-Thought (CoT) prompting ຈາກພາຍນອກ ຄືໂມເດລເອງສ້າງ reasoning chain ທີ່ຍາວຕາມຄວາມຈຳເປັນ.

ວິທີຄວບຄຸມງົບປະມານການຄຳນວນແຕກຕ່າງກັນໄປຕາມໂມເດລ. ມີທັງວິທີກຳນົດຈຳນວນ token ສູງສຸດ, ວິທີຢຸດເມື່ອຄ່າຄວາມໜ້າເຊື່ອຖືເກີນຄ່າ threshold, ແລະ ວິທີດຳເນີນການ reasoning path ຫຼາຍເສັ້ນທາງແບບຂະໜານແລ້ວລົງຄະແນນສຽງຂ້າງຫຼາຍ (Best-of-N).

ເຫດຜົນທີ່ໄດ້ຮັບຄວາມສົນໃຈ

ການ scaling ໃນຊ່ວງຝຶກສອນມີ "ກຳແພງຂໍ້ມູນ" ແລະ "ກຳແພງຄ່າໃຊ້ຈ່າຍ". ຂໍ້ມູນຝຶກສອນທີ່ມີຄຸນນະພາບສູງມີຈຳກັດ, ແລະ ຄ່າໃຊ້ຈ່າຍໃນການຂະຫຍາຍໂມເດລໃຫ້ໃຫຍ່ຂຶ້ນສອງເທົ່າບໍ່ໄດ້ເພີ່ມຂຶ້ນພຽງສອງເທົ່າ. ໃນທາງກົງກັນຂ້າມ, ການ scaling ໃນຊ່ວງອະນຸມານໃກ້ຄຽງກັບລະບົບຈ່າຍຕາມການໃຊ້ງານທີ່ເສຍຄ່າໃຊ້ຈ່າຍສະເພາະເວລາທີ່ຈຳເປັນ. ໃນການໃຊ້ງານຕົວຈິງທີ່ query ງ່າຍໆກວມເອົາສ່ວນໃຫຍ່, ສາມາດຮັກສາຄ່າໃຊ້ຈ່າຍສະເລ່ຍໃຫ້ຕ່ຳ ໃນຂະນະທີ່ເພີ່ມຄວາມສາມາດໃນການຮັບມືກັບບັນຫາທີ່ຍາກ.

ໃນຊ່ວງປີ 2026, "hybrid scaling" ທີ່ລວມເອົາທັງການ scaling ໃນຊ່ວງຝຶກສອນ ແລະ ການ scaling ໃນຊ່ວງອະນຸມານເຂົ້າດ້ວຍກັນກຳລັງກາຍເປັນກະແສຫຼັກ.