ຕົວແບ່ງໂທເຄັນ BPE (Byte-Pair Encoding Tokenizer) ແມ່ນຫຍັງ? ຄຳສັບ AI, DX & Security ພ້ອມແຜນພາບ

ສູດການຄິດໄລ່ທີ່ລວມຂໍ້ຄວາມດ້ວຍຮູບແບບທີ່ປາກົດເລື້ອຍໆ ແລະ ແບ່ງອອກເປັນໜ່ວຍ subword. ມັນສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ LLM, ແລະ ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ, ການຂາດແຄນຄຳສັບສະເພາະໃນ vocabulary ຈະເຮັດໃຫ້ເກີດການແຍກລະດັບ byte.

BPE Tokenizer（Byte-Pair Encoding Tokenizer）ແມ່ນ algorithm ທີ່ແບ່ງຂໍ້ຄວາມອອກເປັນໜ່ວຍ subword ໂດຍການລວມຮູບແບບຕົວອັກສອນ ແລະ ສາຍຕົວອັກສອນທີ່ປາກົດເລື້ອຍໆ ເຊິ່ງເປັນເທັກໂນໂລຊີພື້ນຖານທີ່ສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ LLM（ໂມເດລພາສາຂະໜາດໃຫຍ່）.

ກົນໄກຂອງ Algorithm

BPE ເກີດຂຶ້ນໃນເບື້ອງຕົ້ນໃນຖານະເທັກນິກການບີບອັດຂໍ້ມູນ. ການນຳໄປໃຊ້ໃນຂົງເຂດ NLP ຄືຕົ້ນກຳເນີດຂອງ tokenizer ໃນປັດຈຸບັນ. ຫຼັກການເຮັດວຽກແມ່ນງ່າຍດາຍ: ທຳອິດຈັດການຕົວອັກສອນທຸກໂຕເປັນໜ່ວຍສ່ວນຕົວ, ຈາກນັ້ນລວມຄູ່ສັນຍາລັກທີ່ຢູ່ຕິດກັນ 2 ໂຕທີ່ປາກົດເລື້ອຍທີ່ສຸດໃຫ້ເປັນສັນຍາລັກໃໝ່ 1 ໂຕ. ການດຳເນີນການນີ້ຈະຊ້ຳໄປຈົນກວ່າຈະເຖິງຂີດຈຳກັດຂະໜາດ vocabulary ສົ່ງຜົນໃຫ້ຄຳທີ່ປາກົດເລື້ອຍໆຖືກເກັບໄວ້ເປັນ 1 token ໃນຂະນະທີ່ຄຳທີ່ຫາຍາກຈະຖືກແຍກອອກເປັນ subword ຫຼື ໜ່ວຍຕົວອັກສອນ ສ້າງ vocabulary table ທີ່ສົມບູນ.

ຂັ້ນຕອນສະເພາະສາມາດສະຫຼຸບໄດ້ດັ່ງນີ້:

ການເກັບ Corpus: ເກັບຂໍ້ຄວາມສຳລັບການຮຽນຮູ້ຈຳນວນຫຼວງຫຼາຍ ແລ້ວຂະຫຍາຍໃຫ້ຢູ່ໃນລະດັບຕົວອັກສອນ
ການນັບຄວາມຖີ່: ນັບຈຳນວນການປາກົດຂອງຄູ່ທີ່ຢູ່ຕິດກັນໃນທົ່ວ corpus ທັງໝົດ
ການດຳເນີນການ Merge: ເພີ່ມຄູ່ທີ່ປາກົດເລື້ອຍທີ່ສຸດເຂົ້າໃນ vocabulary ໃນຖານະ token ໃໝ່ ແລ້ວແທນທີ່ຕຳແໜ່ງທີ່ກ່ຽວຂ້ອງໃນ corpus
ການຊ້ຳ: ຊ້ຳການ merge ຈົນກວ່າຈະເຖິງຂະໜາດ vocabulary ທີ່ກຳນົດໄວ້ (ຕົວຢ່າງ: 3 ໝື່ນ ຫາ 10 ໝື່ນ token)

ຜົນທີ່ໄດ້ຮັບຄື "running" ຈະຖືກແຍກເປັນ run + ning ແລະ "unhappiness" ຈະຖືກແຍກເປັນ un + happiness ເຮັດໃຫ້ສາມາດຈັດການຄຳທີ່ບໍ່ຮູ້ຈັກໄດ້ໃນຖານະຊິ້ນສ່ວນທີ່ມີຄວາມໝາຍ.

ເປັນຫຍັງການອອກແບບ Token ຈຶ່ງສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນ

Token ເປັນໜ່ວຍພື້ນຖານຂອງທຸກສິ່ງໃນ LLM ທັງຄ່າໃຊ້ຈ່າຍ, ຄວາມໄວ ແລະ ຄວາມຍາວ context. ຂໍ້ຄວາມດຽວກັນສາມາດມີຈຳນວນ token ທີ່ແຕກຕ່າງກັນຫຼາຍຂຶ້ນຢູ່ກັບຄຸນນະພາບຂອງການອອກແບບ vocabulary ສົ່ງຜົນໂດຍກົງຕໍ່ AI ROI（ຜົນຕອບແທນຈາກການລົງທຶນ AI）. ເມື່ອນຳ vocabulary table ທີ່ເນັ້ນພາສາອັງກິດໄປໃຊ້ກັບຂໍ້ຄວາມພາສາຍີ່ປຸ່ນ ຕົວອັກສອນ Kanji 1 ໂຕອາດຖືກແຍກອອກເປັນຫຼາຍ token ເຊິ່ງບໍ່ແມ່ນເລື່ອງຜິດປົກກະຕິ ແລ້ວຕົ້ນທຶນການປະມວນຜົນອາດພອງໂຕຂຶ້ນຫຼາຍເທົ່າ.

ໃນສະພາບການຂອງ Multilingual NLP（ການປະມວນຜົນພາສາທຳມະຊາດຫຼາຍພາສາ） ບັນຫານີ້ຍິ່ງຮ້າຍແຮງກວ່າ. ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ corpus ສຳລັບການຮຽນຮູ້ກໍ່ມີໜ້ອຍຢູ່ແລ້ວ ຄູ່ທີ່ປາກົດເລື້ອຍໆຈຶ່ງຍາກທີ່ຈະສ້າງຂຶ້ນ ສ່ວນຄຳຈຶ່ງຖືກແຍກລົງໄປຈົນເຖິງລະດັບ subword ຫຼື ຕົວອັກສອນໄດ້ງ່າຍ. ວິທີແກ້ໄຂໜຶ່ງສຳລັບສິ່ງທ້າທາຍເຫຼົ່ານີ້ຄື Byte-Level BPE ທີ່ສ້າງ vocabulary ຢູ່ເທິງ byte sequence ຂອງ Unicode. Byte-Level BPE ມີຄວາມຍືດຍຸ່ນທີ່ສາມາດລຶບລ້າງຄຳທີ່ບໍ່ຮູ້ຈັກໄດ້ໃນຫຼັກການ ແຕ່ກໍ່ມີ trade-off ຄືຈຳນວນ token ຕໍ່ປະໂຫຍກເພີ່ມຂຶ້ນ ແລ້ວໂມເດລຮຽນຮູ້ຄວາມໝາຍທີ່ເຊື່ອມໂຍງກັນໄດ້ຍາກຂຶ້ນ.

ສະຖານະການນຳໃຊ້ໃນໂມເດລຫຼັກ ແລະ ວິທີການທີ່ພັດທະນາຕໍ່

ໂມເດລຕະກູນ GPT ນຳໃຊ້ library "tiktoken" ທີ່ອີງໃສ່ BPE ໃນຂະນະທີ່ Claude ແລະ Gemini ກໍ່ໃຊ້ subword tokenizer ທີ່ຖືກ tune ເປັນສ່ວນຕົວ. ໃນໄລຍະຫຼັງ Unigram Language Model ຊຶ່ງເປັນ algorithm ທີ່ອີງໃສ່ probabilistic model ທີ່ເປັນເອກະລາດຈາກ BPE ກໍ່ຖືກໃຊ້ຢ່າງກວ້າງຂວາງ ແລ້ວ SentencePiece ໄດ້ຖືກນຳໃຊ້ໃນໂມເດລຫຼາຍໂຕໃນຖານະ toolkit ທີ່ຮອງຮັບທັງ algorithm BPE ແລະ Unigram. ການເລືອກ tokenizer ໃດໃນຂັ້ນຕອນການອອກແບບ ໂມເດລພື້ນຖານ（Foundation Model） ສົ່ງຜົນຢ່າງຫຼວງຫຼາຍຕໍ່ປະສິດທິພາບ.

ເມື່ອ customize ໂມເດລດ້ວຍ Fine-Tuning ຫຼື PEFT ໂດຍທົ່ວໄປຈະສືບທອດ tokenizer ຂອງ base model ໄວ້ຕາມເດີມ. ນີ້ກໍ່ເພາະວ່າຫາກເພີ່ມ ຫຼື ປ່ຽນ vocabulary ໃນພາຍຫຼັງຈະຕ້ອງ retrain embedding layer ສ່ວນ ເຮັດໃຫ້ຕົ້ນທຶນພຸ່ງສູງຂຶ້ນ.

ຂໍ້ຄວນລະວັງໃນການປະຕິບັດຕົວຈິງ

ໃນການສ້າງ pipeline ຂອງ RAG（Retrieval-Augmented Generation） ການກຳນົດ chunk size ມັກຈະອີງໃສ່ຈຳນວນ token ເປັນມາດຕະຖານ. ຖ້າຫາກລືມ premise ທີ່ວ່າ "ຈຳນວນຕົວອັກສອນ ≠ ຈຳນວນ token" ກໍ່ຈະນຳໄປສູ່ການ overflow ຂອງ context window ຫຼື ການຫຼຸດລົງຂອງຄວາມຖືກຕ້ອງໃນການຄົ້ນຫາ. ໂດຍສະເພາະສຳລັບພາສາທີ່ບໍ່ໃຊ້ຕົວອັກສອນລາຕິນ ເຊັ່ນ: ພາສາຍີ່ປຸ່ນ, ຈີນ ແລະ ອາຣາບິກ ຈຳນວນຕົວອັກສອນດຽວກັນອາດໃຊ້ token ຫ

ຕົວແບ່ງໂທເຄັນ BPE (Byte-Pair Encoding Tokenizer)

ກົນໄກຂອງ Algorithm

ເປັນຫຍັງການອອກແບບ Token ຈຶ່ງສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນ

ສະຖານະການນຳໃຊ້ໃນໂມເດລຫຼັກ ແລະ ວິທີການທີ່ພັດທະນາຕໍ່

ຂໍ້ຄວນລະວັງໃນການປະຕິບັດຕົວຈິງ

Let's discuss your needs

ຄຳສັບທີ່ກ່ຽວຂ້ອງ

ໂທເຄັນ (Token)

PoC (ການພິສູດແນວຄິດ)

ການສຳຫຼວດຈາກໄລຍະໄກ

BPO (ການເອົາທຸລະກິດອອກໄປຈ້າງພາຍນອກ)

ຂະໜາດຊັງກ໌