อัลกอริทึมที่รวมข้อความโดยใช้รูปแบบที่พบบ่อยและแบ่งออกเป็นหน่วย subword ส่งผลโดยตรงต่อต้นทุนอินพุต/เอาต์พุตและความเร็วในการประมวลผลของ LLM สำหรับภาษาที่มีทรัพยากรน้อย อาจเกิดการแตกย่อยระดับ byte เนื่องจากคลังคำศัพท์เฉพาะมีไม่เพียงพอ
BPE Tokenizer (Byte-Pair Encoding Tokenizer) คืออัลกอริทึมที่แบ่งข้อความออกเป็นหน่วยย่อย (subword) โดยการรวมรูปแบบอักขระและสตริงที่ปรากฏบ่อย และเป็นเทคโนโลยีพื้นฐานที่ส่งผลโดยตรงต่อต้นทุนการนำเข้า-ส่งออกและความเร็วในการประมวลผลของ LLM (Large Language Model)
BPE ถือกำเนิดขึ้นในฐานะเทคนิคการบีบอัดข้อมูล การนำมาประยุกต์ใช้ในสาขา NLP คือต้นแบบของ Tokenizer ในปัจจุบัน หลักการทำงานนั้นเรียบง่าย กล่าวคือ เริ่มต้นด้วยการจัดการอักขระแต่ละตัวเป็นหน่วยอิสระ จากนั้นรวมคู่สัญลักษณ์ที่อยู่ติดกันซึ่งมีความถี่สูงสุดให้กลายเป็นสัญลักษณ์ใหม่หนึ่งตัว การดำเนินการนี้จะวนซ้ำจนกว่าจะถึงขีดจำกัดขนาด Vocabulary ส่งผลให้คำที่ปรากฏบ่อยถูกแทนด้วย 1 Token ในขณะที่คำที่พบน้อยจะถูกแยกย่อยเป็น Subword หรือหน่วยอักขระ
กระบวนการโดยละเอียดมีดังนี้
ผลลัพธ์ที่ได้คือ "running" จะถูกแบ่งเป็น run + ning และ "unhappiness" จะถูกแบ่งเป็น un + happiness ทำให้แม้แต่คำที่ไม่รู้จักก็สามารถจัดการได้ในฐานะส่วนย่อยที่มีความหมาย
Token คือหน่วยพื้นฐานของทุกมาตรฐานในด้านการเรียกเก็บค่าบริการ ความเร็ว และความยาว Context ของ LLM แม้ข้อความเดียวกัน จำนวน Token อาจแตกต่างกันอย่างมากขึ้นอยู่กับคุณภาพของการออกแบบ Vocabulary และส่งผลโดยตรงต่อ AI ROI (ผลตอบแทนจากการลงทุนด้าน AI) เมื่อนำ Vocabulary Table ที่เน้นภาษาอังกฤษมาใช้กับข้อความภาษาญี่ปุ่น ไม่ใช่เรื่องแปลกที่อักษรคันจิหนึ่งตัวจะถูกแยกออกเป็นหลาย Token ซึ่งอาจทำให้ต้นทุนการประมวลผลพุ่งสูงขึ้นหลายเท่า
ในบริบทของ Multilingual NLP (การประมวลผลภาษาธรรมชาติหลายภาษา) ปัญหานี้ยิ่งรุนแรงขึ้น ภาษาที่มีทรัพยากรน้อยมักมี Corpus สำหรับการเรียนรู้ไม่เพียงพอ ทำให้คู่ที่ปรากฏบ่อยเกิดขึ้นได้ยาก และคำมักถูกแยกย่อยลงไปถึงระดับ Subword หรืออักขระ หนึ่งในแนวทางรับมือกับความท้าทายนี้คือ Byte-Level BPE ซึ่งสร้าง Vocabulary บน Byte Sequence ของ Unicode Byte-Level BPE มีความยืดหยุ่นสูงในแง่ที่สามารถกำจัดคำที่ไม่รู้จักได้โดยหลักการ แต่ก็มีข้อแลกเปลี่ยนคือจำนวน Token ต่อประโยคเพิ่มขึ้น และโมเดลเรียนรู้ความหมายที่เป็นกลุ่มก้อนได้ยากขึ้น
โมเดลตระกูล GPT ใช้ไลบรารี "tiktoken" ที่พัฒนาต่อยอดจาก BPE ในขณะที่ Claude และ Gemini ก็ใช้ Subword Tokenizer ที่ปรับแต่งเป็นการเฉพาะ ในช่วงไม่กี่ปีที่ผ่านมา Unigram Language Model ซึ่งเป็นอัลกอริทึมที่อิงโมเดลความน่าจะเป็นและเป็นอิสระจาก BPE ก็ได้รับการนำไปใช้อย่างแพร่หลาย และ SentencePiece ซึ่งเป็น Toolkit ที่รองรับทั้งอัลกอริทึม BPE และ Unigram ก็ถูกนำมาใช้ในโมเดลจำนวนมาก การเลือก Tokenizer ในขั้นตอนการออกแบบ Base Model (Foundation Model) ส่งผลอย่างมีนัยสำคัญต่อประสิทธิภาพของโมเดล
แม้ในกรณีที่ปรับแต่งโมเดลด้วย Fine-tuning หรือ PEFT ก็เป็นเรื่องปกติที่จะสืบทอด Tokenizer ของ Base Model มาใช้ต่อ เนื่องจากการเพิ่มหรือเปลี่ยนแปลง Vocabulary ภายหลังจำเป็นต้องฝึก Embedding Layer ใหม่ ซึ่งทำให้ต้นทุนพุ่งสูงขึ้นอย่างมาก
เมื่อสร้าง Pipeline ของ RAG (Retrieval-Augmented Generation) การกำหนด Chunk Size มักอ้างอิงจากจำนวน Token เป็นหลัก หากมองข้ามข้อสมมติฐานที่ว่า "จำนวนอักขระ ≠ จำนวน Token" ไป อาจนำไปสู่การล้น Context Window หรือความแม่นยำในการค้นหาลดลง โดยเฉพาะภาษาที่ไม่ใช่ละตินอย่างภาษาญี่ปุ่น จีน และอาหรับ ซึ่งอาจใช้ Token มากกว่าภาษาอังกฤษถึง 2–4 เท่าในจำนวนอักขระเท่ากัน ดังนั้นจึงควรทำความเข้าใจค่าสัมประสิทธิ์การแปลง Token แยกตามภาษา
นอกจากนี้ ยังมีการชี้ให้เห็นว่าความละเอียดของการแบ่ง Token ที่คลาดเคลื่อนจากขอบเขตความหมายเป็นหนึ่งในสาเหตุของ Hallucination เมื่อคำนามเฉพาะหรือศัพท์เทคนิคถูกแบ่งอย่างไม่เป็นธรรมชาติ ความเสี่ยงที่โมเดลจะสร้างคำขึ้นใหม่ในบริบทที่ผิดพลาดก็เพิ่มสูงขึ้น แนวทางที่เป็นไปได้จริงในการปรับปรุงความแม่นยำคือการพิจารณาเพิ่ม Vocabulary เฉพาะโดเมนในขั้นตอนการออกแบบ Vocabulary หรือการทำให้การสะกดเป็นมาตรฐานเดียวกันผ่าน Prompt Engineering



Token คือหน่วยที่เล็กที่สุดที่ LLM ใช้ในการประมวลผลข้อความ โดยไม่ได้หมายถึงคำทั้งคำเสมอไป แต่ยังรวมถึงส่วนหนึ่งของคำ สัญลักษณ์ หรือช่องว่าง ซึ่งเป็นผลจากการแบ่งข้อความตามคลังคำศัพท์ (Vocabulary) ของโมเดล

PEFT (Parameter-Efficient Fine-Tuning) คือชื่อเรียกรวมของวิธีการ fine-tuning ที่ปรับโมเดลให้เข้ากับงานเฉพาะด้วยทรัพยากรการคำนวณและข้อมูลที่น้อยลง โดยอัปเดตเพียงบางส่วนของพารามิเตอร์ในโมเดลภาษาขนาดใหญ่ แทนที่จะอัปเดตพารามิเตอร์ทั้งหมด

ขนาด Chunk หมายถึง ขนาดของหน่วยการแบ่ง (จำนวน Token หรือจำนวนตัวอักษร) ที่ใช้ในการแบ่งเอกสารเพื่อจัดเก็บลงใน Vector Store ภายใน RAG Pipeline ถือเป็น Parameter สำคัญที่ส่งผลโดยตรงต่อความแม่นยำในการค้นหาและคุณภาพของคำตอบ

RAG (Retrieval-Augmented Generation) คือเทคนิคที่ทำการค้นหาข้อมูลที่เกี่ยวข้องจากแหล่งความรู้ภายนอก แล้วนำผลลัพธ์ที่ได้มาเพิ่มเติมใน input ของ LLM เพื่อเพิ่มความแม่นยำและความทันสมัยของคำตอบ