การปรับขนาดการประมวลผลในช่วง Inference (Inference-Time Scaling) คือวิธีการที่เพิ่มหรือลดปริมาณการคำนวณในช่วง Inference ของโมเดลอย่างพลวัต โดยใช้ "ขั้นตอนการคิด" มากขึ้นสำหรับปัญหาที่ซับซ้อน และตอบทันทีสำหรับปัญหาที่ง่าย
## ขยายการเรียนรู้ หรือยืดการอนุมาน การพัฒนาประสิทธิภาพของ LLM แบบดั้งเดิมนั้นมุ่งเน้นที่ "การ scaling ในช่วงเรียนรู้" เป็นหลัก ไม่ว่าจะเป็นข้อมูลที่มากขึ้น โมเดลที่ใหญ่ขึ้น หรือเวลาเรียนรู้ที่นานขึ้น วิวัฒนาการจาก GPT-3 สู่ GPT-4 คือตัวอย่างที่ชัดเจนของแนวทางนี้ การ scaling ในช่วงอนุมานมีแนวคิดที่แตกต่างออกไป โดยคงขนาดของโมเดลไว้เท่าเดิม แต่ปรับปริมาณการคำนวณที่ใช้ในช่วงอนุมานตามระดับความยากของปัญหา คำถามอย่าง "วันนี้อากาศเป็นอย่างไร?" ตอบได้ในขั้นตอนเดียว ในขณะที่ "ช่วยตรวจสอบการพิสูจน์ทางคณิตศาสตร์นี้" อาจต้องใช้การอนุมานภายในหลายสิบขั้นตอน แนวทางนี้ถูกนำมาใช้ใน o1/o3 ของ OpenAI และ extended thinking ของ Claude จาก Anthropic ## กลไกการทำงาน โมเดลจะสร้าง "thinking token" ภายใน และแสดงกระบวนการอนุมานอย่างชัดเจนจนกว่าจะได้คำตอบสุดท้าย สิ่งที่แตกต่างจาก Chain-of-Thought (CoT) prompting แบบที่สั่งจากภายนอก คือตัวโมเดลเองจะสร้าง reasoning chain ที่ยาวตามความจำเป็น วิธีการควบคุม computation budget นั้นแตกต่างกันไปตามแต่ละโมเดล เช่น การกำหนดจำนวน token สูงสุด การหยุดเมื่อค่าความเชื่อมั่นเกินเกณฑ์ที่กำหนด หรือการรัน reasoning path หลายเส้นทางแบบขนานแล้วใช้การโหวตเสียงข้างมาก (Best-of-N) ## เหตุใดจึงได้รับความสนใจ การ scaling ในช่วงเรียนรู้มีข้อจำกัดที่เรียกว่า "กำแพงข้อมูล" และ "กำแพงต้นทุน" ข้อมูลเรียนรู้ที่มีคุณภาพสูงนั้นมีจำกัด และต้นทุนในการขยายโมเดลให้ใหญ่ขึ้นสองเท่าก็ไม่ได้เพิ่มขึ้นเพียงแค่สองเท่าเท่านั้น ในทางกลับกัน การ scaling ในช่วงอนุมานมีลักษณะคล้ายกับระบบจ่ายตามการใช้งาน ที่เสียค่าใช้จ่ายเฉพาะเมื่อจำเป็น ในการใช้งานจริงที่ query ส่วนใหญ่เป็นคำถามง่าย จึงสามารถลดต้นทุนเฉลี่ยได้ในขณะที่ยังรับมือกับปัญหายากได้อย่างมีประสิทธิภาพ ณ ปี 2026 "hybrid scaling" ที่ผสมผสานทั้งการ scaling ในช่วงเรียนรู้และการ scaling ในช่วงอนุมานเข้าด้วยกัน กำลังกลายเป็นแนวทางหลักที่ได้รับความนิยมมากขึ้นเรื่อยๆ


SLM (Small Language Model) คือชื่อเรียกรวมของโมเดลภาษาที่จำกัดจำนวนพารามิเตอร์ไว้ที่ระดับหลายพันล้านถึงประมาณหนึ่งหมื่นล้านพารามิเตอร์ โดยมีคุณสมบัติเด่นคือสามารถทำ Inference และ Fine-tuning ได้โดยใช้ทรัพยากรการคำนวณน้อยกว่า LLM

LoRA (Low-Rank Adaptation) คือวิธีการที่แทรกเมทริกซ์ผลต่างแบบ low-rank เข้าไปในเมทริกซ์น้ำหนักของโมเดลภาษาขนาดใหญ่ และทำการเรียนรู้เฉพาะส่วนผลต่างนั้น ซึ่งช่วยให้สามารถทำ fine-tuning ได้โดยเพิ่มพารามิเตอร์เพียงประมาณ 0.1–1% ของโมเดลทั้งหมด

การทดสอบแบบ Unit Test คือวิธีการทดสอบที่ตรวจสอบหน่วยย่อยที่สุดของโปรแกรม เช่น ฟังก์ชันหรือเมธอด เป็นรายการ โดยแทนที่การพึ่งพาภายนอกด้วย Mock เพื่อให้สามารถตรวจสอบเฉพาะ Logic ที่ต้องการได้อย่างรวดเร็ว

PEFT (Parameter-Efficient Fine-Tuning) คืออะไร? เทคนิคลดต้นทุนการปรับแต่ง AI Model ได้ถึง 90%

QLoRA (Quantized LoRA) คือวิธีการที่ผสมผสาน LoRA เข้ากับการ quantization แบบ 4 บิต ทำให้สามารถทำ fine-tuning โมเดลภาษาขนาดใหญ่ได้แม้บน GPU ระดับผู้บริโภคทั่วไป