Token ແມ່ນໜ່ວຍທີ່ນ້ອຍທີ່ສຸດທີ່ LLM ໃຊ້ໃນການປະມວນຜົນຂໍ້ຄວາມ. Token ບໍ່ແມ່ນຄຳສັບທັງໝົດ ແຕ່ໝາຍເຖິງສ່ວນຍ່ອຍຂອງຄຳສັບ, ສັນຍາລັກ, ຫຼືຊ່ອງຫວ່າງກໍໄດ້, ໂດຍເປັນຜົນຈາກການຕັດແບ່ງຂໍ້ຄວາມຕາມ vocabulary ຂອງໂມເດນ.
ເມື່ອໄດ້ຍິນຄຳວ່າ "token" ຫຼາຍຄົນມັກນຶກເຖິງຄຳສັບ ແຕ່ໃນຄວາມເປັນຈິງແລ້ວມັນລະອຽດກວ່ານັ້ນເລັກນ້ອຍ. ຄຳວ່າ "unbelievable" ໃນພາສາອັງກິດອາດຖືກແບ່ງອອກເປັນ 3 token ຄື "un", "believ", "able". ໃນກໍລະນີຂອງພາສາຍີ່ປຸ່ນນັ້ນສະຖານະການຊັບຊ້ອນກວ່ານີ້ອີກ ບາງຄັ້ງຕົວອັກສອນ hiragana 1 ໂຕກໍ່ກາຍເປັນ 1 token ໃນຂະນະທີ່ຕົວ kanji 1 ໂຕອາດໃຊ້ 2〜3 token.
ຂະບວນການແບ່ງນີ້ເອີ້ນວ່າ tokenization ແລະ ແຕ່ລະ model ໃຊ້ algorithm ທີ່ແຕກຕ່າງກັນ (ເຊັ່ນ BPE, SentencePiece ເປັນຕົ້ນ). ນີ້ຄືເຫດຜົນທີ່ຈຳນວນ token ຂອງປະໂຫຍກດຽວກັນສາມາດແຕກຕ່າງກັນໄປຕາມ model.
ຄ່າໃຊ້ຈ່າຍ ແລະ ປະສິດທິພາບຂອງ LLM ແມ່ນຖືກກຳນົດໂດຍຈຳນວນ token ເກືອບທັງໝົດ. ຄ່າໃຊ້ API ໂດຍທົ່ວໄປຈະຄິດໄລ່ຕາມຈຳນວນ token ຂາເຂົ້າ ແລະ ຂາອອກ ແລະ context window (ປະລິມານຂໍ້ຄວາມທີ່ model ສາມາດຈັດການໄດ້ໃນຄັ້ງດຽວ) ກໍ່ຖືກກຳນົດດ້ວຍຈຳນວນ token ເຊັ່ນກັນ.
ມັນຍັງສົ່ງຜົນໂດຍກົງຕໍ່ຄວາມໄວໃນການ inference ອີກດ້ວຍ. ໃນ Dense Model ນັ້ນ parameter ທັງໝົດຈະມີສ່ວນຮ່ວມໃນການປະມວນຜົນແຕ່ລະ token ດັ່ງນັ້ນເມື່ອຈຳນວນ token ເພີ່ມຂຶ້ນ ປະລິມານການຄຳນວນກໍ່ຈະເພີ່ມຂຶ້ນຕາມສັດສ່ວນ. ຂໍ້ຈຳກັດນີ້ຄືເຫດຜົນທີ່ຕ້ອງມີການຫຍໍ້ input ໃນ task ການສະຫຼຸບຂໍ້ຄວາມຍາວ.
ສຳລັບພາສາອັງກິດ "1 token ≒ 4 ໂຕອັກສອນ ≒ 0.75 ຄຳສັບ" ແມ່ນຕົວເລກຄາດຄະເນທີ່ໃຊ້ກັນທົ່ວໄປ. ພາສາຍີ່ປຸ່ນມີປະສິດທິພາບ token ຕ່ຳກວ່າ ແລະ ມີແນວໂນ້ມທີ່ຈະໃຊ້ token ຫຼາຍກວ່າພາສາອັງກິດ 1.5〜2 ເທົ່າ ເຖິງແມ່ນວ່າຈະມີເນື້ອຫາຄວາມໝາຍດຽວກັນ. ໃນການອອກແບບລະບົບທີ່ຮອງຮັບຫຼາຍພາສານັ້ນ ຈຳເປັນຕ້ອງລວມຄວາມແຕກຕ່າງນີ້ໄວ້ໃນການຄາດຄະເນຄ່າໃຊ້ຈ່າຍດ້ວຍ.


OIDC token ແມ່ນຊື່ເອີ້ນລວມຂອງ ID token, access token, ແລະ refresh token ທີ່ອອກໃຫ້ພາຍໃຕ້ OpenID Connect protocol, ເຊິ່ງເປັນຂໍ້ມູນທີ່ມີລາຍເຊັນສຳລັບການແລກປ່ຽນຂໍ້ມູນການພິສູດຕົວຕົນ (authentication) ແລະການອະນຸຍາດ (authorization) ຂອງຜູ້ໃຊ້ຢ່າງປອດໄພ.

ສູດການຄິດໄລ່ທີ່ລວມຂໍ້ຄວາມດ້ວຍຮູບແບບທີ່ປາກົດເລື້ອຍໆ ແລະ ແບ່ງອອກເປັນໜ່ວຍ subword. ມັນສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການນຳເຂົ້າ-ສົ່ງອອກ ແລະ ຄວາມໄວໃນການປະມວນຜົນຂອງ LLM, ແລະ ສຳລັບພາສາທີ່ມີຊັບພະຍາກອນໜ້ອຍ, ການຂາດແຄນຄຳສັບສະເພາະໃນ vocabulary ຈະເຮັດໃຫ້ເກີດການແຍກລະດັບ byte.

ຂະໜາດ chunk ແມ່ນຂະໜາດຂອງໜ່ວຍການແບ່ງ (ຈຳນວນ token ຫຼືຈຳນວນຕົວອັກສອນ) ທີ່ໃຊ້ໃນການແບ່ງເອກະສານເພື່ອເກັບໄວ້ໃນ vector store ພາຍໃນ RAG pipeline. ນີ້ແມ່ນ parameter ທີ່ສຳຄັນທີ່ສົ່ງຜົນໂດຍກົງຕໍ່ຄວາມຖືກຕ້ອງຂອງການຄົ້ນຫາ ແລະ ຄຸນນະພາບຂອງຄຳຕອບ.
