ตัวแบ่งโทเค็น BPE (Byte-Pair Encoding Tokenizer) คืออะไร? อภิธานศัพท์ AI, DX & Security พร้อมแผนภาพ

อัลกอริทึมที่รวมข้อความโดยใช้รูปแบบที่พบบ่อยและแบ่งออกเป็นหน่วย subword ส่งผลโดยตรงต่อต้นทุนอินพุต/เอาต์พุตและความเร็วในการประมวลผลของ LLM สำหรับภาษาที่มีทรัพยากรน้อย อาจเกิดการแตกย่อยระดับ byte เนื่องจากคลังคำศัพท์เฉพาะมีไม่เพียงพอ

BPE Tokenizer (Byte-Pair Encoding Tokenizer) คืออัลกอริทึมที่แบ่งข้อความออกเป็นหน่วยย่อย (subword) โดยการรวมรูปแบบอักขระและสตริงที่ปรากฏบ่อย และเป็นเทคโนโลยีพื้นฐานที่ส่งผลโดยตรงต่อต้นทุนการนำเข้า-ส่งออกและความเร็วในการประมวลผลของ LLM (Large Language Model)

กลไกของอัลกอริทึม

BPE ถือกำเนิดขึ้นในฐานะเทคนิคการบีบอัดข้อมูล การนำมาประยุกต์ใช้ในสาขา NLP คือต้นแบบของ Tokenizer ในปัจจุบัน หลักการทำงานนั้นเรียบง่าย กล่าวคือ เริ่มต้นด้วยการจัดการอักขระแต่ละตัวเป็นหน่วยอิสระ จากนั้นรวมคู่สัญลักษณ์ที่อยู่ติดกันซึ่งมีความถี่สูงสุดให้กลายเป็นสัญลักษณ์ใหม่หนึ่งตัว การดำเนินการนี้จะวนซ้ำจนกว่าจะถึงขีดจำกัดขนาด Vocabulary ส่งผลให้คำที่ปรากฏบ่อยถูกแทนด้วย 1 Token ในขณะที่คำที่พบน้อยจะถูกแยกย่อยเป็น Subword หรือหน่วยอักขระ

กระบวนการโดยละเอียดมีดังนี้

การรวบรวม Corpus: รวบรวมข้อความสำหรับการเรียนรู้จำนวนมาก แล้วขยายออกในระดับอักขระ
การนับความถี่: นับจำนวนครั้งที่คู่ที่อยู่ติดกันปรากฏทั่วทั้ง Corpus
การดำเนินการ Merge: เพิ่มคู่ที่พบบ่อยที่สุดเป็น Token ใหม่ใน Vocabulary และแทนที่ตำแหน่งที่เกี่ยวข้องใน Corpus
การวนซ้ำ: ทำการ Merge ซ้ำจนกว่าจะถึงขนาด Vocabulary ที่กำหนด (เช่น 30,000–100,000 Token)

ผลลัพธ์ที่ได้คือ "running" จะถูกแบ่งเป็น run + ning และ "unhappiness" จะถูกแบ่งเป็น un + happiness ทำให้แม้แต่คำที่ไม่รู้จักก็สามารถจัดการได้ในฐานะส่วนย่อยที่มีความหมาย

เหตุใดการออกแบบ Token จึงส่งผลโดยตรงต่อต้นทุน

Token คือหน่วยพื้นฐานของทุกมาตรฐานในด้านการเรียกเก็บค่าบริการ ความเร็ว และความยาว Context ของ LLM แม้ข้อความเดียวกัน จำนวน Token อาจแตกต่างกันอย่างมากขึ้นอยู่กับคุณภาพของการออกแบบ Vocabulary และส่งผลโดยตรงต่อ AI ROI (ผลตอบแทนจากการลงทุนด้าน AI) เมื่อนำ Vocabulary Table ที่เน้นภาษาอังกฤษมาใช้กับข้อความภาษาญี่ปุ่น ไม่ใช่เรื่องแปลกที่อักษรคันจิหนึ่งตัวจะถูกแยกออกเป็นหลาย Token ซึ่งอาจทำให้ต้นทุนการประมวลผลพุ่งสูงขึ้นหลายเท่า

ในบริบทของ Multilingual NLP (การประมวลผลภาษาธรรมชาติหลายภาษา) ปัญหานี้ยิ่งรุนแรงขึ้น ภาษาที่มีทรัพยากรน้อยมักมี Corpus สำหรับการเรียนรู้ไม่เพียงพอ ทำให้คู่ที่ปรากฏบ่อยเกิดขึ้นได้ยาก และคำมักถูกแยกย่อยลงไปถึงระดับ Subword หรืออักขระ หนึ่งในแนวทางรับมือกับความท้าทายนี้คือ Byte-Level BPE ซึ่งสร้าง Vocabulary บน Byte Sequence ของ Unicode Byte-Level BPE มีความยืดหยุ่นสูงในแง่ที่สามารถกำจัดคำที่ไม่รู้จักได้โดยหลักการ แต่ก็มีข้อแลกเปลี่ยนคือจำนวน Token ต่อประโยคเพิ่มขึ้น และโมเดลเรียนรู้ความหมายที่เป็นกลุ่มก้อนได้ยากขึ้น

สถานะการนำไปใช้ในโมเดลหลักและเทคนิคที่ต่อยอด

โมเดลตระกูล GPT ใช้ไลบรารี "tiktoken" ที่พัฒนาต่อยอดจาก BPE ในขณะที่ Claude และ Gemini ก็ใช้ Subword Tokenizer ที่ปรับแต่งเป็นการเฉพาะ ในช่วงไม่กี่ปีที่ผ่านมา Unigram Language Model ซึ่งเป็นอัลกอริทึมที่อิงโมเดลความน่าจะเป็นและเป็นอิสระจาก BPE ก็ได้รับการนำไปใช้อย่างแพร่หลาย และ SentencePiece ซึ่งเป็น Toolkit ที่รองรับทั้งอัลกอริทึม BPE และ Unigram ก็ถูกนำมาใช้ในโมเดลจำนวนมาก การเลือก Tokenizer ในขั้นตอนการออกแบบ Base Model (Foundation Model) ส่งผลอย่างมีนัยสำคัญต่อประสิทธิภาพของโมเดล

แม้ในกรณีที่ปรับแต่งโมเดลด้วย Fine-tuning หรือ PEFT ก็เป็นเรื่องปกติที่จะสืบทอด Tokenizer ของ Base Model มาใช้ต่อ เนื่องจากการเพิ่มหรือเปลี่ยนแปลง Vocabulary ภายหลังจำเป็นต้องฝึก Embedding Layer ใหม่ ซึ่งทำให้ต้นทุนพุ่งสูงขึ้นอย่างมาก

ข้อควรระวังในการใช้งานจริง

เมื่อสร้าง Pipeline ของ RAG (Retrieval-Augmented Generation) การกำหนด Chunk Size มักอ้างอิงจากจำนวน Token เป็นหลัก หากมองข้ามข้อสมมติฐานที่ว่า "จำนวนอักขระ ≠ จำนวน Token" ไป อาจนำไปสู่การล้น Context Window หรือความแม่นยำในการค้นหาลดลง โดยเฉพาะภาษาที่ไม่ใช่ละตินอย่างภาษาญี่ปุ่น จีน และอาหรับ ซึ่งอาจใช้ Token มากกว่าภาษาอังกฤษถึง 2–4 เท่าในจำนวนอักขระเท่ากัน ดังนั้นจึงควรทำความเข้าใจค่าสัมประสิทธิ์การแปลง Token แยกตามภาษา

นอกจากนี้ ยังมีการชี้ให้เห็นว่าความละเอียดของการแบ่ง Token ที่คลาดเคลื่อนจากขอบเขตความหมายเป็นหนึ่งในสาเหตุของ Hallucination เมื่อคำนามเฉพาะหรือศัพท์เทคนิคถูกแบ่งอย่างไม่เป็นธรรมชาติ ความเสี่ยงที่โมเดลจะสร้างคำขึ้นใหม่ในบริบทที่ผิดพลาดก็เพิ่มสูงขึ้น แนวทางที่เป็นไปได้จริงในการปรับปรุงความแม่นยำคือการพิจารณาเพิ่ม Vocabulary เฉพาะโดเมนในขั้นตอนการออกแบบ Vocabulary หรือการทำให้การสะกดเป็นมาตรฐานเดียวกันผ่าน Prompt Engineering

ตัวแบ่งโทเค็น BPE (Byte-Pair Encoding Tokenizer)

กลไกของอัลกอริทึม

เหตุใดการออกแบบ Token จึงส่งผลโดยตรงต่อต้นทุน

สถานะการนำไปใช้ในโมเดลหลักและเทคนิคที่ต่อยอด

ข้อควรระวังในการใช้งานจริง

Let's discuss your needs

คำศัพท์ที่เกี่ยวข้อง

โทเค็น (Token)

PEFT

ขนาดชังก์

RAG (การสร้างข้อความเสริมด้วยการดึงข้อมูล)