ໂທເຄັນ (Token) ແມ່ນຫຍັງ? ຄຳສັບ AI, DX & Security ພ້ອມແຜນພາບ

Token ແມ່ນໜ່ວຍທີ່ນ້ອຍທີ່ສຸດທີ່ LLM ໃຊ້ໃນການປະມວນຜົນຂໍ້ຄວາມ. Token ບໍ່ແມ່ນຄຳສັບທັງໝົດ ແຕ່ໝາຍເຖິງສ່ວນຍ່ອຍຂອງຄຳສັບ, ສັນຍາລັກ, ຫຼືຊ່ອງຫວ່າງກໍໄດ້, ໂດຍເປັນຜົນຈາກການຕັດແບ່ງຂໍ້ຄວາມຕາມ vocabulary ຂອງໂມເດນ.

ແຕກຕ່າງຈາກຄຳສັບ

ເມື່ອໄດ້ຍິນຄຳວ່າ "token" ຫຼາຍຄົນມັກນຶກເຖິງຄຳສັບ ແຕ່ໃນຄວາມເປັນຈິງແລ້ວມັນລະອຽດກວ່ານັ້ນເລັກນ້ອຍ. ຄຳວ່າ "unbelievable" ໃນພາສາອັງກິດອາດຖືກແບ່ງອອກເປັນ 3 token ຄື "un", "believ", "able". ໃນກໍລະນີຂອງພາສາຍີ່ປຸ່ນນັ້ນສະຖານະການຊັບຊ້ອນກວ່ານີ້ອີກ ບາງຄັ້ງຕົວອັກສອນ hiragana 1 ໂຕກໍ່ກາຍເປັນ 1 token ໃນຂະນະທີ່ຕົວ kanji 1 ໂຕອາດໃຊ້ 2〜3 token.

ຂະບວນການແບ່ງນີ້ເອີ້ນວ່າ tokenization ແລະ ແຕ່ລະ model ໃຊ້ algorithm ທີ່ແຕກຕ່າງກັນ (ເຊັ່ນ BPE, SentencePiece ເປັນຕົ້ນ). ນີ້ຄືເຫດຜົນທີ່ຈຳນວນ token ຂອງປະໂຫຍກດຽວກັນສາມາດແຕກຕ່າງກັນໄປຕາມ model.

ເປັນຫຍັງຈຳນວນ token ຈຶ່ງສຳຄັນ

ຄ່າໃຊ້ຈ່າຍ ແລະ ປະສິດທິພາບຂອງ LLM ແມ່ນຖືກກຳນົດໂດຍຈຳນວນ token ເກືອບທັງໝົດ. ຄ່າໃຊ້ API ໂດຍທົ່ວໄປຈະຄິດໄລ່ຕາມຈຳນວນ token ຂາເຂົ້າ ແລະ ຂາອອກ ແລະ context window (ປະລິມານຂໍ້ຄວາມທີ່ model ສາມາດຈັດການໄດ້ໃນຄັ້ງດຽວ) ກໍ່ຖືກກຳນົດດ້ວຍຈຳນວນ token ເຊັ່ນກັນ.

ມັນຍັງສົ່ງຜົນໂດຍກົງຕໍ່ຄວາມໄວໃນການ inference ອີກດ້ວຍ. ໃນ Dense Model ນັ້ນ parameter ທັງໝົດຈະມີສ່ວນຮ່ວມໃນການປະມວນຜົນແຕ່ລະ token ດັ່ງນັ້ນເມື່ອຈຳນວນ token ເພີ່ມຂຶ້ນ ປະລິມານການຄຳນວນກໍ່ຈະເພີ່ມຂຶ້ນຕາມສັດສ່ວນ. ຂໍ້ຈຳກັດນີ້ຄືເຫດຜົນທີ່ຕ້ອງມີການຫຍໍ້ input ໃນ task ການສະຫຼຸບຂໍ້ຄວາມຍາວ.

ການປະເມີນໃນການໃຊ້ງານຈິງ

ສຳລັບພາສາອັງກິດ "1 token ≒ 4 ໂຕອັກສອນ ≒ 0.75 ຄຳສັບ" ແມ່ນຕົວເລກຄາດຄະເນທີ່ໃຊ້ກັນທົ່ວໄປ. ພາສາຍີ່ປຸ່ນມີປະສິດທິພາບ token ຕ່ຳກວ່າ ແລະ ມີແນວໂນ້ມທີ່ຈະໃຊ້ token ຫຼາຍກວ່າພາສາອັງກິດ 1.5〜2 ເທົ່າ ເຖິງແມ່ນວ່າຈະມີເນື້ອຫາຄວາມໝາຍດຽວກັນ. ໃນການອອກແບບລະບົບທີ່ຮອງຮັບຫຼາຍພາສານັ້ນ ຈຳເປັນຕ້ອງລວມຄວາມແຕກຕ່າງນີ້ໄວ້ໃນການຄາດຄະເນຄ່າໃຊ້ຈ່າຍດ້ວຍ.