การควอนไทซ์ (Quantization)

Updated:26 มีนาคม 2569Published:25 มีนาคม 2569

เทคนิคการปรับแต่งที่ลดความแม่นยำของพารามิเตอร์โมเดลจาก 16 บิต ลงเหลือ 4 บิต เป็นต้น เพื่อบีบอัดขนาดและเปิดใช้งานการ inference ภายใต้ทรัพยากรการประมวลผลที่จำกัด

Quantization คืออะไร

Quantization (การ Quantize) คือเทคนิคการปรับแต่งที่ลดความแม่นยำของค่าตัวเลขในพารามิเตอร์น้ำหนักของโมเดล (เช่น จาก floating point 32 บิต → integer 4 บิต) เพื่อบีบอัดขนาดโมเดลและการใช้หน่วยความจำ

ความเข้าใจเชิงสัญชาตญาณ

คล้ายกับการลดคุณภาพของภาพถ่ายแล้วทำให้ขนาดไฟล์เล็กลง แม้ว่าปริมาณข้อมูลต่อพารามิเตอร์หนึ่งตัวจะลดลง แต่ประสิทธิภาพโดยรวมของโมเดลกลับคงอยู่ได้อย่างน่าแปลกใจ หากนำโมเดลขนาด 70B พารามิเตอร์มาทำ Quantization แบบ 4 บิต การใช้งาน VRAM จะลดลงจากประมาณ 140GB เหลือประมาณ 35GB ทำให้สามารถ Inference ได้โดยไม่ต้องใช้ GPU cluster ราคาแพง

ประเภทของ Quantization

วิธีการ	ลักษณะเฉพาะ
Post-Training Quantization (PTQ)	Quantize โมเดลที่เทรนแล้วโดยตรง ทำได้ง่ายแต่อาจมีความแม่นยำลดลงมาก
Quantization-Aware Training (QAT)	เทรนโดยคำนึงถึงการ Quantize ให้ความแม่นยำสูงกว่า PTQ แต่ต้องใช้ต้นทุนในการเทรน
GPTQ / AWQ / GGUF	รูปแบบ Quantization ที่ปรับแต่งมาสำหรับ LLM โดยเฉพาะ และแพร่หลายในฐานะรูปแบบการแจกจ่าย Local LLM

QLoRA คือเทคนิคที่ผสมผสาน Quantization นี้เข้ากับ LoRA ซึ่งช่วยให้สามารถทำ Fine-tuning ในสถานะที่ถูก Quantize เป็น 4 บิตได้

เกณฑ์การตัดสินใจในการใช้งานจริง

มีผลการวิจัยหลายชิ้นรายงานว่า "การนำโมเดลขนาดใหญ่มา Quantize" ให้ประสิทธิภาพสูงกว่า "การใช้โมเดลขนาดเล็กที่มีความแม่นยำสูง" เมื่อต้องเลือกโมเดลในสภาพแวดล้อม Edge AI การค้นหาคำตอบที่เหมาะสมที่สุดจะขึ้นอยู่กับการผสมผสานระหว่างขนาดโมเดลและจำนวนบิตที่ใช้ใน Quantization

คำศัพท์ที่เกี่ยวข้อง

TurboQuant

เทคโนโลยีการบีบอัดหน่วยความจำสำหรับ LLM ที่พัฒนาโดย Google ใช้การ Quantization เพื่อลดการใช้หน่วยความจำได้สูงสุดถึง 1/6 และเพิ่มความเร็วในการ Inference ได้สูงสุดถึง 8 เท่า

QLoRA

QLoRA (Quantized LoRA) คือวิธีการที่ผสมผสาน LoRA เข้ากับการ quantization แบบ 4 บิต ทำให้สามารถทำ fine-tuning โมเดลภาษาขนาดใหญ่ได้แม้บน GPU ระดับผู้บริโภคทั่วไป

การปรับขนาดในช่วงอนุมาน (Test-time Compute)

การปรับขนาดการประมวลผลในช่วง Inference (Inference-Time Scaling) คือวิธีการที่เพิ่มหรือลดปริมาณการคำนวณในช่วง Inference ของโมเดลอย่างพลวัต โดยใช้ "ขั้นตอนการคิด" มากขึ้นสำหรับปัญหาที่ซับซ้อน และตอบทันทีสำหรับปัญหาที่ง่าย