ຂະໜາດ chunk ແມ່ນຂະໜາດຂອງໜ່ວຍການແບ່ງ (ຈຳນວນ token ຫຼືຈຳນວນຕົວອັກສອນ) ທີ່ໃຊ້ໃນການແບ່ງເອກະສານເພື່ອເກັບໄວ້ໃນ vector store ພາຍໃນ RAG pipeline. ນີ້ແມ່ນ parameter ທີ່ສຳຄັນທີ່ສົ່ງຜົນໂດຍກົງຕໍ່ຄວາມຖືກຕ້ອງຂອງການຄົ້ນຫາ ແລະ ຄຸນນະພາບຂອງຄຳຕອບ.
LLM ມີຂີດຈຳກັດຂອງ context window. ເນື່ອງຈາກບໍ່ສາມາດສົ່ງຄູ່ມືພາຍໃນອົງກອນທີ່ມີຫຼາຍຮ້ອຍໜ້າໄປໂດຍກົງໄດ້, ຈຶ່ງຕ້ອງແບ່ງເອກະສານອອກເປັນຂະໜາດທີ່ເໝາະສົມ (chunking) ແລ້ວທຳການ vectorize, ຈາກນັ້ນຈຶ່ງຄົ້ນຫາ ແລະ ດຶງເອົາສະເພາະສ່ວນທີ່ກ່ຽວຂ້ອງກັບຄຳຖາມ. ໃນຂັ້ນຕອນນີ້, "ຈະຕັດໃນຂະໜາດໃດ" ຈຶ່ງກາຍເປັນບັນຫາຂອງ chunk size.
ຖ້າ chunk ນ້ອຍເກີນໄປ, ບໍລິບົດທີ່ຢູ່ໃນ chunk ດຽວຈະບໍ່ພຽງພໍ, ແມ່ນແຕ່ຈະຖືກຄົ້ນພົບໃນການຄົ້ນຫາ, LLM ກໍ່ຍັງຂາດຂໍ້ມູນທີ່ຈຳເປັນສຳລັບການສ້າງຄຳຕອບ. ໃນທາງກົງກັນຂ້າມ, ຖ້າໃຫຍ່ເກີນໄປ, ຂໍ້ມູນທີ່ບໍ່ກ່ຽວຂ້ອງຈະຖືກປົນເຂົ້າມາເປັນ noise, ສົ່ງຜົນໃຫ້ຄວາມຖືກຕ້ອງຂອງຄຳຕອບຫຼຸດລົງ ແລະ ຄ່າໃຊ້ຈ່າຍ token ກໍ່ເພີ່ມຂຶ້ນດ້ວຍ.
ໂດຍທົ່ວໄປແລ້ວ, ປະມານ 256〜1,024 token ຖືວ່າເປັນຈຸດເລີ່ມຕົ້ນ, ແຕ່ຄ່າທີ່ດີທີ່ສຸດຂຶ້ນຢູ່ກັບ domain ແລະ ລັກສະນະຂອງຄຳຖາມ. ນະໂຍບາຍພື້ນຖານໃນການປະຕິບັດຕົວຈິງຄື: ຖ້າເປັນ Q&A ສັ້ນໆ ແບບ FAQ ໃຫ້ຕັ້ງຄ່າໃຫ້ນ້ອຍລົງ, ຖ້າເປັນເອກະສານທີ່ບໍລິບົດກ່ອນໜ້າ ແລະ ຫຼັງຈາກນັ້ນມີຄວາມສຳຄັນ ເຊັ່ນ: ເອກະສານຂໍ້ກຳນົດທາງເທັກນິກ ໃຫ້ຕັ້ງຄ່າໃຫ້ໃຫຍ່ຂຶ້ນ.
ເພື່ອບັນເທົາບັນຫາທີ່ບໍລິບົດຖືກຕັດຂາດທີ່ຂອບເຂດຂອງ chunk, ມັກຈະໃຊ້ "overlap" ທີ່ເຮັດໃຫ້ chunk ທີ່ຢູ່ຕິດກັນຊ້ອນທັບກັນບາງສ່ວນ. ຕົວຢ່າງ: ຖ້າ chunk size ແມ່ນ 512 token ແລະ overlap ແມ່ນ 64 token, ສ່ວນທ້າຍ 64 token ຂອງ chunk ກ່ອນໜ້າຈະຖືກລວມຢູ່ໃນຕອນຕົ້ນຂອງ chunk ຕໍ່ໄປດ້ວຍ. ວິທີນີ້ຊ່ວຍປັບປຸງຄວາມຖືກຕ້ອງຂອງ BM25 ແລະ vector search, ແຕ່ storage ແລະ index size ຈະເພີ່ມຂຶ້ນ.


ການປັບຂະໜາດໃນເວລາອະນຸມານ (Inference-time Scaling) ແມ່ນເຕັກນິກທີ່ເພີ່ມຫຼືຫຼຸດປະລິມານການຄຳນວນໃນຂັ້ນຕອນການອະນຸມານຂອງໂມເດລຢ່າງເໝາະສົມ ໂດຍໃຊ້ "ຂັ້ນຕອນການຄິດ" ຫຼາຍຂຶ້ນສຳລັບບັນຫາທີ່ຍາກ ແລະ ຕອບທັນທີສຳລັບບັນຫາທີ່ງ່າຍ.

ເຕັກນິກການເລັ່ງການອະນຸມານທີ່ໂມເດລ draft ຂະໜາດນ້ອຍສະເໜີຫຼາຍ token ລ່ວງໜ້າ ແລະ ໂມເດລຂະໜາດໃຫຍ່ກວດສອບຢ່າງຂະໜານກັນ.

ສູດການຄິດໄລ່ທີ່ລວມຂໍ້ຄວາມດ້ວຍຮູບແບບທີ່ປາກົດເລື້ອຍໆ ແລະ ແບ່ງອອກເປັນໜ່ວຍ subword. ມັນສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ LLM, ແລະ ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ, ການຂາດແຄນຄຳສັບສະເພາະໃນ vocabulary ຈະເຮັດໃຫ້ເກີດການແຍກລະດັບ byte.


ວິທີເພີ່ມປະສິດທິພາບການຝຶກອົບຮົມພາຍໃນອົງກອນ ແລະ ການຖ່າຍທອດຄວາມຮູ້ດ້ວຍ AI