โทเค็น (Token) คืออะไร? อภิธานศัพท์ AI, DX & Security พร้อมแผนภาพ

Token คือหน่วยที่เล็กที่สุดที่ LLM ใช้ในการประมวลผลข้อความ โดยไม่ได้หมายถึงคำทั้งคำเสมอไป แต่ยังรวมถึงส่วนหนึ่งของคำ สัญลักษณ์ หรือช่องว่าง ซึ่งเป็นผลจากการแบ่งข้อความตามคลังคำศัพท์ (Vocabulary) ของโมเดล

ต่างจากคำศัพท์ทั่วไป

เมื่อได้ยินคำว่า "โทเค็น" หลายคนมักนึกถึงคำศัพท์ แต่ในความเป็นจริงแล้วมีความละเอียดกว่านั้น คำในภาษาอังกฤษอย่าง "unbelievable" อาจถูกแบ่งออกเป็น 3 โทเค็น ได้แก่ "un", "believ" และ "able" สำหรับภาษาญี่ปุ่นนั้นซับซ้อนยิ่งกว่า เนื่องจากอักษรฮิรางานะหนึ่งตัวอาจเป็น 1 โทเค็น ในขณะที่อักษรคันจิหนึ่งตัวอาจใช้ถึง 2–3 โทเค็น

กระบวนการแบ่งนี้เรียกว่า Tokenization และแต่ละโมเดลจะใช้อัลกอริทึมที่แตกต่างกัน เช่น BPE หรือ SentencePiece นี่คือเหตุผลที่ประโยคเดียวกันอาจมีจำนวนโทเค็นต่างกันไปตามแต่ละโมเดล

เหตุใดจำนวนโทเค็นจึงสำคัญ

ต้นทุนและประสิทธิภาพของ LLM นั้นขึ้นอยู่กับจำนวนโทเค็นเป็นหลัก ค่าบริการ API โดยทั่วไปจะคิดตามจำนวนโทเค็นของ Input และ Output และ Context Window (ปริมาณข้อความที่โมเดลสามารถประมวลผลได้ในครั้งเดียว) ก็ถูกกำหนดด้วยจำนวนโทเค็นเช่นกัน

จำนวนโทเค็นยังส่งผลโดยตรงต่อความเร็วในการ Inference ด้วย ใน Dense Model พารามิเตอร์ทั้งหมดจะมีส่วนร่วมในการประมวลผลแต่ละโทเค็น ดังนั้นเมื่อจำนวนโทเค็นเพิ่มขึ้น ปริมาณการคำนวณก็จะเพิ่มขึ้นตามสัดส่วน ข้อจำกัดนี้เองที่ทำให้งานสรุปข้อความยาวต้องมีเทคนิคในการบีบอัด Input

การประมาณการในงานจริง

สำหรับภาษาอังกฤษ มักใช้ค่าประมาณว่า "1 โทเค็น ≈ 4 ตัวอักษร ≈ 0.75 คำ" ส่วนภาษาญี่ปุ่นมีประสิทธิภาพของโทเค็นต่ำกว่า โดยมีแนวโน้มใช้โทเค็นมากกว่าภาษาอังกฤษถึง 1.5–2 เท่าสำหรับเนื้อหาที่มีความหมายเดียวกัน ในการออกแบบระบบที่รองรับหลายภาษา จำเป็นต้องนำความแตกต่างนี้มาคำนวณรวมในการประมาณต้นทุนด้วย