เทคนิคการเร่งความเร็วในการอนุมานที่โมเดลร่างขนาดเล็กเสนอโทเค็นหลายตัวล่วงหน้า และโมเดลขนาดใหญ่ทำการตรวจสอบแบบขนาน
Speculative Decoding คือเทคนิคที่ "Draft Model" ขนาดเล็กทำการเสนอ Token หลายตัวล่วงหน้า จากนั้น "Verification Model" ขนาดใหญ่จะตรวจสอบและตัดสินรับหรือปฏิเสธ Token เหล่านั้นแบบขนาน ส่งผลให้ความเร็วในการ Inference เพิ่มขึ้น 2〜3 เท่า
การ Inference ของ LLM ทั่วไปจะสร้าง Token ทีละตัวตามลำดับ ยิ่งโมเดลมีขนาดใหญ่ ต้นทุนการคำนวณในแต่ละขั้นตอนยิ่งสูง ทำให้การตอบสนองช้าลง Speculative Decoding ช่วยบรรเทาข้อจำกัดของการประมวลผลแบบลำดับนี้
ยิ่ง Draft Model เสนอ Token ที่ "ถูกต้อง" ได้มากเท่าใด จำนวนครั้งที่ต้องเรียกใช้ Verification Model ก็ยิ่งลดลง และประสิทธิภาพการเร่งความเร็วก็ยิ่งสูงขึ้น
ประเด็นสำคัญคือ Speculative Decoding ไม่เปลี่ยนแปลง Output Distribution ของ Verification Model ในเชิงคณิตศาสตร์ ผลลัพธ์ที่ได้จะเหมือนกับกรณีที่ไม่มี Draft Model ดังนั้นจึงสามารถปรับปรุงความเร็วได้โดยไม่สูญเสียคุณภาพ
เทคนิคนี้มีประสิทธิภาพเป็นพิเศษในสถานการณ์ที่ต้องการลด Latency ขณะยังคงรักษาความแม่นยำสูงของโมเดลขนาดใหญ่ไว้ เช่น การตอบสนองแบบ Real-time ของ Chatbot และการทำ Code Completion นอกจากนี้ยังช่วยลดต้นทุน GPU ได้ด้วย จึงเป็นเทคนิคที่ควรพิจารณาสำหรับระบบ Production ที่มีต้นทุนการ Inference เป็นปัญหา


การปรับขนาดการประมวลผลในช่วง Inference (Inference-Time Scaling) คือวิธีการที่เพิ่มหรือลดปริมาณการคำนวณในช่วง Inference ของโมเดลอย่างพลวัต โดยใช้ "ขั้นตอนการคิด" มากขึ้นสำหรับปัญหาที่ซับซ้อน และตอบทันทีสำหรับปัญหาที่ง่าย

เทคนิคการปรับแต่งที่ลดความแม่นยำของพารามิเตอร์โมเดลจาก 16 บิต ลงเหลือ 4 บิต เป็นต้น เพื่อบีบอัดขนาดและเปิดใช้งานการ inference ภายใต้ทรัพยากรการประมวลผลที่จำกัด

Sparse Model (สปาร์สโมเดล) คือชื่อเรียกรวมของสถาปัตยกรรมเครือข่ายประสาทเทียมที่ในระหว่างการ Inference จะเปิดใช้งานเพียงบางส่วนของพารามิเตอร์ทั้งหมดของโมเดล ไม่ใช่ทุกพารามิเตอร์ ตัวอย่างที่เป็นที่รู้จักได้แก่ MoE (Mixture of Experts) ซึ่งใช้กลยุทธ์การ Scaling ที่แตกต่างจาก Dense Model กล่าวคือสามารถเพิ่มจำนวนพารามิเตอร์รวมได้ในขณะที่ยังควบคุมต้นทุนการ Inference ให้อยู่ในระดับต่ำ
