การปรับขนาดการประมวลผลในช่วง Inference (Inference-Time Scaling) คือวิธีการที่เพิ่มหรือลดปริมาณการคำนวณในช่วง Inference ของโมเดลอย่างพลวัต โดยใช้ "ขั้นตอนการคิด" มากขึ้นสำหรับปัญหาที่ซับซ้อน และตอบทันทีสำหรับปัญหาที่ง่าย
การพัฒนาประสิทธิภาพของ LLM แบบดั้งเดิมนั้นมุ่งเน้นที่ "การ scaling ในช่วงเรียนรู้" เป็นหลัก ไม่ว่าจะเป็นข้อมูลที่มากขึ้น โมเดลที่ใหญ่ขึ้น หรือเวลาเรียนรู้ที่นานขึ้น วิวัฒนาการจาก GPT-3 สู่ GPT-4 คือตัวอย่างที่ชัดเจนของแนวทางนี้
การ scaling ในช่วงอนุมานมีแนวคิดที่แตกต่างออกไป โดยคงขนาดของโมเดลไว้เท่าเดิม แต่ปรับปริมาณการคำนวณที่ใช้ในช่วงอนุมานตามระดับความยากของปัญหา คำถามอย่าง "วันนี้อากาศเป็นอย่างไร?" ตอบได้ในขั้นตอนเดียว ในขณะที่ "ช่วยตรวจสอบการพิสูจน์ทางคณิตศาสตร์นี้" อาจต้องใช้การอนุมานภายในหลายสิบขั้นตอน แนวทางนี้ถูกนำมาใช้ใน o1/o3 ของ OpenAI และ extended thinking ของ Claude จาก Anthropic
โมเดลจะสร้าง "thinking token" ภายใน และแสดงกระบวนการอนุมานอย่างชัดเจนจนกว่าจะได้คำตอบสุดท้าย สิ่งที่แตกต่างจาก Chain-of-Thought (CoT) prompting แบบที่สั่งจากภายนอก คือตัวโมเดลเองจะสร้าง reasoning chain ที่ยาวตามความจำเป็น
วิธีการควบคุม computation budget นั้นแตกต่างกันไปตามแต่ละโมเดล เช่น การกำหนดจำนวน token สูงสุด การหยุดเมื่อค่าความเชื่อมั่นเกินเกณฑ์ที่กำหนด หรือการรัน reasoning path หลายเส้นทางแบบขนานแล้วใช้การโหวตเสียงข้างมาก (Best-of-N)
การ scaling ในช่วงเรียนรู้มีข้อจำกัดที่เรียกว่า "กำแพงข้อมูล" และ "กำแพงต้นทุน" ข้อมูลเรียนรู้ที่มีคุณภาพสูงนั้นมีจำกัด และต้นทุนในการขยายโมเดลให้ใหญ่ขึ้นสองเท่าก็ไม่ได้เพิ่มขึ้นเพียงแค่สองเท่าเท่านั้น ในทางกลับกัน การ scaling ในช่วงอนุมานมีลักษณะคล้ายกับระบบจ่ายตามการใช้งาน ที่เสียค่าใช้จ่ายเฉพาะเมื่อจำเป็น ในการใช้งานจริงที่ query ส่วนใหญ่เป็นคำถามง่าย จึงสามารถลดต้นทุนเฉลี่ยได้ในขณะที่ยังรับมือกับปัญหายากได้อย่างมีประสิทธิภาพ
ณ ปี 2026 "hybrid scaling" ที่ผสมผสานทั้งการ scaling ในช่วงเรียนรู้และการ scaling ในช่วงอนุมานเข้าด้วยกัน กำลังกลายเป็นแนวทางหลักที่ได้รับความนิยมมากขึ้นเรื่อยๆ


การอนุมานแบบหลายขั้นตอน (Multi-step Reasoning) คือวิธีการอนุมานที่ LLM ไม่ได้สร้างคำตอบในครั้งเดียว แต่ผ่านขั้นตอนกลางหลายขั้นตอน (เช่น การสร้างคำถามย่อย การตรวจสอบคำตอบบางส่วน การดึงข้อมูลเพิ่มเติม เป็นต้น) เพื่อให้ได้คำตอบสุดท้าย

SLM (Small Language Model) คือชื่อเรียกรวมของโมเดลภาษาที่จำกัดจำนวนพารามิเตอร์ไว้ที่ระดับหลายพันล้านถึงประมาณหนึ่งหมื่นล้านพารามิเตอร์ โดยมีคุณสมบัติเด่นคือสามารถทำ Inference และ Fine-tuning ได้โดยใช้ทรัพยากรการคำนวณน้อยกว่า LLM

PEFT (Parameter-Efficient Fine-Tuning) คือชื่อเรียกรวมของวิธีการ fine-tuning ที่ปรับโมเดลให้เข้ากับงานเฉพาะด้วยทรัพยากรการคำนวณและข้อมูลที่น้อยลง โดยอัปเดตเพียงบางส่วนของพารามิเตอร์ในโมเดลภาษาขนาดใหญ่ แทนที่จะอัปเดตพารามิเตอร์ทั้งหมด


วิธีที่ธุรกิจโรงแรมและท่องเที่ยวในไทยเริ่มใช้ AI สำหรับ Dynamic Pricing