ຕົວແບ່ງໂທເຄັນ BPE (Byte-Pair Encoding Tokenizer)

ສູດການຄິດໄລ່ທີ່ລວມຂໍ້ຄວາມດ້ວຍຮູບແບບທີ່ປາກົດເລື້ອຍໆ ແລະ ແບ່ງອອກເປັນໜ່ວຍ subword. ມັນສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ LLM, ແລະ ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ, ການຂາດແຄນຄຳສັບສະເພາະໃນ vocabulary ຈະເຮັດໃຫ້ເກີດການແຍກລະດັບ byte.
BPE Tokenizer(Byte-Pair Encoding Tokenizer)ແມ່ນ algorithm ທີ່ແບ່ງຂໍ້ຄວາມອອກເປັນໜ່ວຍ subword ໂດຍການລວມຮູບແບບຕົວອັກສອນ ແລະ ສາຍຕົວອັກສອນທີ່ປາກົດເລື້ອຍໆ ເຊິ່ງເປັນເທັກໂນໂລຊີພື້ນຖານທີ່ສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ [LLM(ໂມເດລພາສາຂະໜາດໃຫຍ່)](slug: llm).
ກົນໄກຂອງ Algorithm
BPE ເກີດຂຶ້ນໃນເບື້ອງຕົ້ນໃນຖານະເທັກນິກການບີບອັດຂໍ້ມູນ. ການນຳໄປໃຊ້ໃນຂົງເຂດ NLP ຄືຕົ້ນກຳເນີດຂອງ tokenizer ໃນປັດຈຸບັນ. ຫຼັກການເຮັດວຽກແມ່ນງ່າຍດາຍ: ທຳອິດຈັດການຕົວອັກສອນທຸກໂຕເປັນໜ່ວຍສ່ວນຕົວ, ຈາກນັ້ນລວມຄູ່ສັນຍາລັກທີ່ຢູ່ຕິດກັນ 2 ໂຕທີ່ປາກົດເລື້ອຍທີ່ສຸດໃຫ້ເປັນສັນຍາລັກໃໝ່ 1 ໂຕ. ການດຳເນີນການນີ້ຈະຊ້ຳໄປຈົນກວ່າຈະເຖິງຂີດຈຳກັດຂະໜາດ vocabulary ສົ່ງຜົນໃຫ້ຄຳທີ່ປາກົດເລື້ອຍໆຖືກເກັບໄວ້ເປັນ 1 token ໃນຂະນະທີ່ຄຳທີ່ຫາຍາກຈະຖືກແຍກອອກເປັນ subword ຫຼື ໜ່ວຍຕົວອັກສອນ ສ້າງ vocabulary table ທີ່ສົມບູນ.
ຂັ້ນຕອນສະເພາະສາມາດສະຫຼຸບໄດ້ດັ່ງນີ້:
- ການເກັບ Corpus: ເກັບຂໍ້ຄວາມສຳລັບການຮຽນຮູ້ຈຳນວນຫຼວງຫຼາຍ ແລ້ວຂະຫຍາຍໃຫ້ຢູ່ໃນລະດັບຕົວອັກສອນ
- ການນັບຄວາມຖີ່: ນັບຈຳນວນການປາກົດຂອງຄູ່ທີ່ຢູ່ຕິດກັນໃນທົ່ວ corpus ທັງໝົດ
- ການດຳເນີນການ Merge: ເພີ່ມຄູ່ທີ່ປາກົດເລື້ອຍທີ່ສຸດເຂົ້າໃນ vocabulary ໃນຖານະ token ໃໝ່ ແລ້ວແທນທີ່ຕຳແໜ່ງທີ່ກ່ຽວຂ້ອງໃນ corpus
- ການຊ້ຳ: ຊ້ຳການ merge ຈົນກວ່າຈະເຖິງຂະໜາດ vocabulary ທີ່ກຳນົດໄວ້ (ຕົວຢ່າງ: 3 ໝື່ນ ຫາ 10 ໝື່ນ token)
ຜົນທີ່ໄດ້ຮັບຄື "running" ຈະຖືກແຍກເປັນ run + ning ແລະ "unhappiness" ຈະຖືກແຍກເປັນ un + happiness ເຮັດໃຫ້ສາມາດຈັດການຄຳທີ່ບໍ່ຮູ້ຈັກໄດ້ໃນຖານະຊິ້ນສ່ວນທີ່ມີຄວາມໝາຍ.
ເປັນຫຍັງການອອກແບບ Token ຈຶ່ງສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນ
[Token](slug: token) ເປັນໜ່ວຍພື້ນຖານຂອງທຸກສິ່ງໃນ LLM ທັງຄ່າໃຊ້ຈ່າຍ, ຄວາມໄວ ແລະ ຄວາມຍາວ context. ຂໍ້ຄວາມດຽວກັນສາມາດມີຈຳນວນ token ທີ່ແຕກຕ່າງກັນຫຼາຍຂຶ້ນຢູ່ກັບຄຸນນະພາບຂອງການອອກແບບ vocabulary ສົ່ງຜົນໂດຍກົງຕໍ່ [AI ROI(ຜົນຕອບແທນຈາກການລົງທຶນ AI)](slug: ai-roi). ເມື່ອນຳ vocabulary table ທີ່ເນັ້ນພາສາອັງກິດໄປໃຊ້ກັບຂໍ້ຄວາມພາສາຍີ່ປຸ່ນ ຕົວອັກສອນ Kanji 1 ໂຕອາດຖືກແຍກອອກເປັນຫຼາຍ token ເຊິ່ງບໍ່ແມ່ນເລື່ອງຜິດປົກກະຕິ ແລ້ວຕົ້ນທຶນການປະມວນຜົນອາດພອງໂຕຂຶ້ນຫຼາຍເທົ່າ.
ໃນສະພາບການຂອງ [Multilingual NLP(ການປະມວນຜົນພາສາທຳມະຊາດຫຼາຍພາສາ)](slug: multilingual-nlp) ບັນຫານີ້ຍິ່ງຮ້າຍແຮງກວ່າ. ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ corpus ສຳລັບການຮຽນຮູ້ກໍ່ມີໜ້ອຍຢູ່ແລ້ວ ຄູ່ທີ່ປາກົດເລື້ອຍໆຈຶ່ງຍາກທີ່ຈະສ້າງຂຶ້ນ ສ່ວນຄຳຈຶ່ງຖືກແຍກລົງໄປຈົນເຖິງລະດັບ subword ຫຼື ຕົວອັກສອນໄດ້ງ່າຍ. ວິທີແກ້ໄຂໜຶ່ງສຳລັບສິ່ງທ້າທາຍເຫຼົ່ານີ້ຄື Byte-Level BPE ທີ່ສ້າງ vocabulary ຢູ່ເທິງ byte sequence ຂອງ Unicode. Byte-Level BPE ມີຄວາມຍືດຍຸ່ນທີ່ສາມາດລຶບລ້າງຄຳທີ່ບໍ່ຮູ້ຈັກໄດ້ໃນຫຼັກການ ແຕ່ກໍ່ມີ trade-off ຄືຈຳນວນ token ຕໍ່ປະໂຫຍກເພີ່ມຂຶ້ນ ແລ້ວໂມເດລຮຽນຮູ້ຄວາມໝາຍທີ່ເຊື່ອມໂຍງກັນໄດ້ຍາກຂຶ້ນ.
ສະຖານະການນຳໃຊ້ໃນໂມເດລຫຼັກ ແລະ ວິທີການທີ່ພັດທະນາຕໍ່
ໂມເດລຕະກູນ GPT ນຳໃຊ້ library "tiktoken" ທີ່ອີງໃສ່ BPE ໃນຂະນະທີ່ Claude ແລະ Gemini ກໍ່ໃຊ້ subword tokenizer ທີ່ຖືກ tune ເປັນສ່ວນຕົວ. ໃນໄລຍະຫຼັງ Unigram Language Model ຊຶ່ງເປັນ algorithm ທີ່ອີງໃສ່ probabilistic model ທີ່ເປັນເອກະລາດຈາກ BPE ກໍ່ຖືກໃຊ້ຢ່າງກວ້າງຂວາງ ແລ້ວ SentencePiece ໄດ້ຖືກນຳໃຊ້ໃນໂມເດລຫຼາຍໂຕໃນຖານະ toolkit ທີ່ຮອງຮັບທັງ algorithm BPE ແລະ Unigram. ການເລືອກ tokenizer ໃດໃນຂັ້ນຕອນການອອກແບບ [ໂມເດລພື້ນຖານ(Foundation Model)](slug: foundation-model) ສົ່ງຜົນຢ່າງຫຼວງຫຼາຍຕໍ່ປະສິດທິພາບ.
ເມື່ອ customize ໂມເດລດ້ວຍ [Fine-Tuning](slug: fine-tuning) ຫຼື [PEFT](slug: peft) ໂດຍທົ່ວໄປຈະສືບທອດ tokenizer ຂອງ base model ໄວ້ຕາມເດີມ. ນີ້ກໍ່ເພາະວ່າຫາກເພີ່ມ ຫຼື ປ່ຽນ vocabulary ໃນພາຍຫຼັງຈະຕ້ອງ retrain embedding layer ສ່ວນ ເຮັດໃຫ້ຕົ້ນທຶນພຸ່ງສູງຂຶ້ນ.
ຂໍ້ຄວນລະວັງໃນການປະຕິບັດຕົວຈິງ
ໃນການສ້າງ pipeline ຂອງ [RAG(Retrieval-Augmented Generation)](slug: rag) ການກຳນົດ [chunk size](slug: chunk-size) ມັກຈະອີງໃສ່ຈຳນວນ token ເປັນມາດຕະຖານ. ຖ້າຫາກລືມ premise ທີ່ວ່າ "ຈຳນວນຕົວອັກສອນ ≠ ຈຳນວນ token" ກໍ່ຈະນຳໄປສູ່ການ overflow ຂອງ context window ຫຼື ການຫຼຸດລົງຂອງຄວາມຖືກຕ້ອງໃນການຄົ້ນຫາ. ໂດຍສະເພາະສຳລັບພາສາທີ່ບໍ່ໃຊ້ຕົວອັກສອນລາຕິນ ເຊັ່ນ: ພາສາຍີ່ປຸ່ນ, ຈີນ ແລະ ອາຣາບິກ ຈຳນວນຕົວອັກສອນດຽວກັນອາດໃຊ້ token ຫ
ຄຳສັບທີ່ກ່ຽວຂ້ອງ

AI ROI (ຜົນຕອບແທນຈາກການລົງທຶນ AI)
AI ROI ແມ່ນຕົວຊີ້ວັດທີ່ໃຊ້ວັດແທກຜົນໄດ້ຮັບຢ່າງເປັນປະລິມານ ເຊັ່ນ: ການປັບປຸງປະສິດທິພາບການເຮັດວຽກ ແລະ ກາ

AI ຄາດຄະເນຄວາມຕ້ອງການ (Demand Forecasting AI)
AI ຄາດການຄວາມຕ້ອງການ (Demand Forecasting AI) ແມ່ນລະບົບທີ່ໃຊ້ການຮຽນຮູ້ຂອງເຄື່ອງຈັກ (Machine Learning)

AI ສ້າງສັນ (Generative AI)
Generative AI ແມ່ນຄຳສັບລວມຂອງຕົວແບບ AI ທີ່ສາມາດສ້າງເນື້ອຫາຕ່າງໆ ເຊັ່ນ: ຂໍ້ຄວາມ, ຮູບພາບ, ສຽງ ແລະ ວິດີ

AI ອ້ອມຂ້າງ
ອຳບຽງ AI (Ambient AI) ໝາຍເຖິງລະບົບ AI ທີ່ຝັງຕົວຢູ່ໃນສະພາບແວດລ້ອມຂອງຜູ້ໃຊ້ງານ, ຄອຍຕິດຕາມຂໍ້ມູນຈາກເຊັນ