ສູດການຄິດໄລ່ທີ່ລວມຂໍ້ຄວາມດ້ວຍຮູບແບບທີ່ປາກົດເລື້ອຍໆ ແລະ ແບ່ງອອກເປັນໜ່ວຍ subword. ມັນສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ LLM, ແລະ ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ, ການຂາດແຄນຄຳສັບສະເພາະໃນ vocabulary ຈະເຮັດໃຫ້ເກີດການແຍກລະດັບ byte.
BPE Tokenizer(Byte-Pair Encoding Tokenizer)ແມ່ນ algorithm ທີ່ແບ່ງຂໍ້ຄວາມອອກເປັນໜ່ວຍ subword ໂດຍການລວມຮູບແບບຕົວອັກສອນ ແລະ ສາຍຕົວອັກສອນທີ່ປາກົດເລື້ອຍໆ ເຊິ່ງເປັນເທັກໂນໂລຊີພື້ນຖານທີ່ສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ LLM(ໂມເດລພາສາຂະໜາດໃຫຍ່).
BPE ເກີດຂຶ້ນໃນເບື້ອງຕົ້ນໃນຖານະເທັກນິກການບີບອັດຂໍ້ມູນ. ການນຳໄປໃຊ້ໃນຂົງເຂດ NLP ຄືຕົ້ນກຳເນີດຂອງ tokenizer ໃນປັດຈຸບັນ. ຫຼັກການເຮັດວຽກແມ່ນງ່າຍດາຍ: ທຳອິດຈັດການຕົວອັກສອນທຸກໂຕເປັນໜ່ວຍສ່ວນຕົວ, ຈາກນັ້ນລວມຄູ່ສັນຍາລັກທີ່ຢູ່ຕິດກັນ 2 ໂຕທີ່ປາກົດເລື້ອຍທີ່ສຸດໃຫ້ເປັນສັນຍາລັກໃໝ່ 1 ໂຕ. ການດຳເນີນການນີ້ຈະຊ້ຳໄປຈົນກວ່າຈະເຖິງຂີດຈຳກັດຂະໜາດ vocabulary ສົ່ງຜົນໃຫ້ຄຳທີ່ປາກົດເລື້ອຍໆຖືກເກັບໄວ້ເປັນ 1 token ໃນຂະນະທີ່ຄຳທີ່ຫາຍາກຈະຖືກແຍກອອກເປັນ subword ຫຼື ໜ່ວຍຕົວອັກສອນ ສ້າງ vocabulary table ທີ່ສົມບູນ.
ຂັ້ນຕອນສະເພາະສາມາດສະຫຼຸບໄດ້ດັ່ງນີ້:
ຜົນທີ່ໄດ້ຮັບຄື "running" ຈະຖືກແຍກເປັນ run + ning ແລະ "unhappiness" ຈະຖືກແຍກເປັນ un + happiness ເຮັດໃຫ້ສາມາດຈັດການຄຳທີ່ບໍ່ຮູ້ຈັກໄດ້ໃນຖານະຊິ້ນສ່ວນທີ່ມີຄວາມໝາຍ.
Token ເປັນໜ່ວຍພື້ນຖານຂອງທຸກສິ່ງໃນ LLM ທັງຄ່າໃຊ້ຈ່າຍ, ຄວາມໄວ ແລະ ຄວາມຍາວ context. ຂໍ້ຄວາມດຽວກັນສາມາດມີຈຳນວນ token ທີ່ແຕກຕ່າງກັນຫຼາຍຂຶ້ນຢູ່ກັບຄຸນນະພາບຂອງການອອກແບບ vocabulary ສົ່ງຜົນໂດຍກົງຕໍ່ AI ROI(ຜົນຕອບແທນຈາກການລົງທຶນ AI). ເມື່ອນຳ vocabulary table ທີ່ເນັ້ນພາສາອັງກິດໄປໃຊ້ກັບຂໍ້ຄວາມພາສາຍີ່ປຸ່ນ ຕົວອັກສອນ Kanji 1 ໂຕອາດຖືກແຍກອອກເປັນຫຼາຍ token ເຊິ່ງບໍ່ແມ່ນເລື່ອງຜິດປົກກະຕິ ແລ້ວຕົ້ນທຶນການປະມວນຜົນອາດພອງໂຕຂຶ້ນຫຼາຍເທົ່າ.
ໃນສະພາບການຂອງ Multilingual NLP(ການປະມວນຜົນພາສາທຳມະຊາດຫຼາຍພາສາ) ບັນຫານີ້ຍິ່ງຮ້າຍແຮງກວ່າ. ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ corpus ສຳລັບການຮຽນຮູ້ກໍ່ມີໜ້ອຍຢູ່ແລ້ວ ຄູ່ທີ່ປາກົດເລື້ອຍໆຈຶ່ງຍາກທີ່ຈະສ້າງຂຶ້ນ ສ່ວນຄຳຈຶ່ງຖືກແຍກລົງໄປຈົນເຖິງລະດັບ subword ຫຼື ຕົວອັກສອນໄດ້ງ່າຍ. ວິທີແກ້ໄຂໜຶ່ງສຳລັບສິ່ງທ້າທາຍເຫຼົ່ານີ້ຄື Byte-Level BPE ທີ່ສ້າງ vocabulary ຢູ່ເທິງ byte sequence ຂອງ Unicode. Byte-Level BPE ມີຄວາມຍືດຍຸ່ນທີ່ສາມາດລຶບລ້າງຄຳທີ່ບໍ່ຮູ້ຈັກໄດ້ໃນຫຼັກການ ແຕ່ກໍ່ມີ trade-off ຄືຈຳນວນ token ຕໍ່ປະໂຫຍກເພີ່ມຂຶ້ນ ແລ້ວໂມເດລຮຽນຮູ້ຄວາມໝາຍທີ່ເຊື່ອມໂຍງກັນໄດ້ຍາກຂຶ້ນ.
ໂມເດລຕະກູນ GPT ນຳໃຊ້ library "tiktoken" ທີ່ອີງໃສ່ BPE ໃນຂະນະທີ່ Claude ແລະ Gemini ກໍ່ໃຊ້ subword tokenizer ທີ່ຖືກ tune ເປັນສ່ວນຕົວ. ໃນໄລຍະຫຼັງ Unigram Language Model ຊຶ່ງເປັນ algorithm ທີ່ອີງໃສ່ probabilistic model ທີ່ເປັນເອກະລາດຈາກ BPE ກໍ່ຖືກໃຊ້ຢ່າງກວ້າງຂວາງ ແລ້ວ SentencePiece ໄດ້ຖືກນຳໃຊ້ໃນໂມເດລຫຼາຍໂຕໃນຖານະ toolkit ທີ່ຮອງຮັບທັງ algorithm BPE ແລະ Unigram. ການເລືອກ tokenizer ໃດໃນຂັ້ນຕອນການອອກແບບ ໂມເດລພື້ນຖານ(Foundation Model) ສົ່ງຜົນຢ່າງຫຼວງຫຼາຍຕໍ່ປະສິດທິພາບ.
ເມື່ອ customize ໂມເດລດ້ວຍ Fine-Tuning ຫຼື PEFT ໂດຍທົ່ວໄປຈະສືບທອດ tokenizer ຂອງ base model ໄວ້ຕາມເດີມ. ນີ້ກໍ່ເພາະວ່າຫາກເພີ່ມ ຫຼື ປ່ຽນ vocabulary ໃນພາຍຫຼັງຈະຕ້ອງ retrain embedding layer ສ່ວນ ເຮັດໃຫ້ຕົ້ນທຶນພຸ່ງສູງຂຶ້ນ.
ໃນການສ້າງ pipeline ຂອງ RAG(Retrieval-Augmented Generation) ການກຳນົດ chunk size ມັກຈະອີງໃສ່ຈຳນວນ token ເປັນມາດຕະຖານ. ຖ້າຫາກລືມ premise ທີ່ວ່າ "ຈຳນວນຕົວອັກສອນ ≠ ຈຳນວນ token" ກໍ່ຈະນຳໄປສູ່ການ overflow ຂອງ context window ຫຼື ການຫຼຸດລົງຂອງຄວາມຖືກຕ້ອງໃນການຄົ້ນຫາ. ໂດຍສະເພາະສຳລັບພາສາທີ່ບໍ່ໃຊ້ຕົວອັກສອນລາຕິນ ເຊັ່ນ: ພາສາຍີ່ປຸ່ນ, ຈີນ ແລະ ອາຣາບິກ ຈຳນວນຕົວອັກສອນດຽວກັນອາດໃຊ້ token ຫ



Token ແມ່ນໜ່ວຍທີ່ນ້ອຍທີ່ສຸດທີ່ LLM ໃຊ້ໃນການປະມວນຜົນຂໍ້ຄວາມ. Token ບໍ່ແມ່ນຄຳສັບທັງໝົດ ແຕ່ໝາຍເຖິງສ່ວນຍ່ອຍຂອງຄຳສັບ, ສັນຍາລັກ, ຫຼືຊ່ອງຫວ່າງກໍໄດ້, ໂດຍເປັນຜົນຈາກການຕັດແບ່ງຂໍ້ຄວາມຕາມ vocabulary ຂອງໂມເດນ.

PoC (Proof of Concept, ການພິສູດແນວຄິດ) ແມ່ນຂະບວນການກວດສອບຄວາມເປັນໄປໄດ້ຂອງເຕັກໂນໂລຊີ ຫຼື ແນວຄິດໃໝ່ໃນຂະໜາດນ້ອຍ. ມັນຖືກດຳເນີນການເພື່ອເຮັດໃຫ້ຄວາມສ່ຽງເປັນທີ່ເຫັນໄດ້ຊັດເຈນກ່ອນທີ່ຈະລົງທຶນໃນການພັດທະນາຢ່າງເຕັມຮູບແບບ ແລະ ເພື່ອຕັດສິນວ່າ "ວິທີການນີ້ສາມາດບັນລຸເປົ້າໝາຍໄດ້ຫຼືບໍ່".

Remote Sensing ແມ່ນຄຳສັບລວມທີ່ໃຊ້ເອີ້ນເຕັກໂນໂລຊີທີ່ວັດແທກການສະທ້ອນ ແລະ ການແຜ່ລັງສີຂອງຄື້ນແມ່ເຫຼັກໄຟຟ້າຈາກດາວທຽມ, ອາກາດຍານ, ໂດຣນ ແລະ ອື່ນໆ ທີ່ຕິດຕັ້ງເຊັນເຊີ, ໂດຍບໍ່ຕ້ອງສຳຜັດກັບວັດຖຸໂດຍກົງ, ເພື່ອເກັບກຳ ແລະ ວິເຄາະສະພາບຂອງພື້ນຜິວໂລກ ແລະ ບັນຍາກາດ.

BPO ແມ່ນຮູບແບບການ outsourcing ທີ່ບໍລິສັດມອບໝາຍຂະບວນການທຸລະກິດສະເພາະໃຫ້ຜູ້ໃຫ້ບໍລິການພາຍນອກທີ່ມີຄວາມຊ່ຽວຊານ. ໃນໄລຍະຫຼັງມານີ້, AI Hybrid BPO ທີ່ປະສົມປະສານກັບການນຳໃຊ້ AI ເພື່ອການອັດຕະໂນມັດກຳລັງໄດ້ຮັບຄວາມສົນໃຈເພີ່ມຂຶ້ນ.

ຂະໜາດ chunk ແມ່ນຂະໜາດຂອງໜ່ວຍການແບ່ງ (ຈຳນວນ token ຫຼືຈຳນວນຕົວອັກສອນ) ທີ່ໃຊ້ໃນການແບ່ງເອກະສານເພື່ອເກັບໄວ້ໃນ vector store ພາຍໃນ RAG pipeline. ນີ້ແມ່ນ parameter ທີ່ສຳຄັນທີ່ສົ່ງຜົນໂດຍກົງຕໍ່ຄວາມຖືກຕ້ອງຂອງການຄົ້ນຫາ ແລະ ຄຸນນະພາບຂອງຄຳຕອບ.