การอนุมานแบบหลายขั้นตอน (Multi-step Reasoning) คือวิธีการอนุมานที่ LLM ไม่ได้สร้างคำตอบในครั้งเดียว แต่ผ่านขั้นตอนกลางหลายขั้นตอน (เช่น การสร้างคำถามย่อย การตรวจสอบคำตอบบางส่วน การดึงข้อมูลเพิ่มเติม เป็นต้น) เพื่อให้ได้คำตอบสุดท้าย
การค้นหาข้อเท็จจริงอย่างเช่น "ยอดขายเท่าไหร่" สามารถเสร็จสิ้นได้ในขั้นตอนเดียว แต่คำถามอย่างเช่น "มาตรการที่ผู้รับผิดชอบแผนกที่มียอดขายเติบโตสูงสุดเมื่อเทียบกับปีก่อนได้นำมาใช้คืออะไร" นั้น ไม่สามารถตอบได้หากไม่ผ่านขั้นตอนกลางหลายขั้นตอน ได้แก่ การเปรียบเทียบข้อมูลยอดขาย → การระบุแผนก → การระบุผู้รับผิดชอบ → การค้นหาข้อมูลมาตรการ
Multi-step reasoning หมายถึงแนวทางที่ LLM แยกย่อยคำถามเชิงซ้อนเหล่านี้ภายในและแก้ปัญหาทีละขั้นตอน แม้จะอยู่บนแนวต่อเนื่องจาก Chain-of-Thought (CoT) prompting แต่เมื่อนำมาผสมผสานกับ RAG จะแตกต่างตรงที่มีการแทรกการค้นหาไปยังแหล่งข้อมูลภายนอกในแต่ละขั้นตอน
Agentic RAG สามารถมองได้ว่าเป็นการนำ multi-step reasoning มาใช้งานในรูปแบบ agent loop โดย agent จะตัดสินใจว่า "ควรค้นหาอะไรต่อไป" และวนซ้ำวงจรการค้นหา → การประเมิน → การค้นหาซ้ำ Multi-step reasoning คือรูปแบบการออกแบบกระบวนการคิด ในขณะที่ Agentic RAG คือสถาปัตยกรรมที่นำไปปฏิบัติจริง
ยิ่งจำนวนขั้นตอนมากขึ้น ความครอบคลุมของคำตอบก็ยิ่งสูงขึ้น แต่ต้นทุนการอนุมานของ LLM และ latency ของการค้นหาก็สะสมในแต่ละขั้นตอนเช่นกัน ในทางปฏิบัติ การออกแบบส่วนใหญ่จะกำหนดขีดจำกัดสูงสุดของจำนวนขั้นตอน (ประมาณ 3–5 ครั้ง) และหยุดทำงานก่อนกำหนดเมื่อรวบรวมข้อมูลได้เพียงพอแล้ว


การปรับขนาดการประมวลผลในช่วง Inference (Inference-Time Scaling) คือวิธีการที่เพิ่มหรือลดปริมาณการคำนวณในช่วง Inference ของโมเดลอย่างพลวัต โดยใช้ "ขั้นตอนการคิด" มากขึ้นสำหรับปัญหาที่ซับซ้อน และตอบทันทีสำหรับปัญหาที่ง่าย

เทคนิคการเขียนพรอมต์ที่ให้ LLM สร้างขั้นตอนการอนุมานระหว่างกลางอย่างชัดเจน เพื่อเพิ่มความแม่นยำในการตอบคำถามสำหรับงานที่ซับซ้อน

RLHF คือวิธีการเรียนรู้เสริมแรง (Reinforcement Learning) ที่ใช้ข้อเสนอแนะจากมนุษย์เป็นรางวัล ส่วน RLVR คือวิธีการเรียนรู้เสริมแรงที่ใช้คำตอบที่ตรวจสอบได้เป็นรางวัล โดยทั้งสองวิธีถูกนำมาใช้เพื่อปรับผลลัพธ์ของ LLM ให้สอดคล้องกับความคาดหวังของมนุษย์
