เทคนิคการเขียนพรอมต์ที่ให้ LLM สร้างขั้นตอนการอนุมานระหว่างกลางอย่างชัดเจน เพื่อเพิ่มความแม่นยำในการตอบคำถามสำหรับงานที่ซับซ้อน
Chain of Thought (CoT) คือเทคนิคการเขียน Prompt ที่บังคับให้ LLM สร้างขั้นตอนการอนุมานระหว่างกลางอย่างชัดเจน เพื่อเพิ่มอัตราความถูกต้องในการทำงานที่ซับซ้อน
สำหรับโจทย์ที่ว่า "มีแอปเปิ้ล 3 ผล และส้ม 5 ผล รวมทั้งหมดเท่าไหร่?" แทนที่ LLM จะตอบตรงๆ ว่า "8" เทคนิคนี้จะชักนำให้ LLM แสดงกระบวนการระหว่างทางว่า "แอปเปิ้ล 3 ผล + ส้ม 5 ผล = 8 ผล" สำหรับการบวกเลขง่ายๆ ความแตกต่างอาจไม่ชัดเจนนัก แต่สำหรับโจทย์ที่มีการอนุมานหลายขั้นตอนหรือมีเงื่อนไขแตกแขนง เช่น การตัดสินว่าเป็นไปตามข้อกำหนดทางกฎหมายหรือไม่ อัตราความถูกต้องจะดีขึ้นอย่างมีนัยสำคัญ
เพียงแค่เพิ่มประโยคว่า "กรุณาคิดทีละขั้นตอน" ลงใน Prompt ก็มีผลแล้ว วิธีนี้เรียกว่า Zero-shot CoT
Reasoning Model คือการออกแบบที่ฝัง CoT ไว้ภายในตัวโมเดล ทำให้สร้าง Chain of Thought โดยอัตโนมัติโดยไม่ต้องชักนำผ่าน Prompt ในทางกลับกัน LLM ทั่วไปก็สามารถดึง CoT ออกมาได้ผ่าน Prompt Engineering ดังนั้นในทางปฏิบัติ แนวทางที่ดีคือลองใช้ฝั่ง Prompt ก่อน แล้วค่อยเปลี่ยนไปใช้ Reasoning Model หากความแม่นยำยังไม่เพียงพอ
ข้อควรระวังคือ CoT จะเพิ่มจำนวน Output Token ทำให้ต้นทุนสูงขึ้น การใช้งานที่ชาญฉลาดคือไม่นำไปใช้กับทุก Request แต่จำกัดเฉพาะ Query ที่ความแม่นยำมีความสำคัญเท่านั้น


การอนุมานแบบหลายขั้นตอน (Multi-step Reasoning) คือวิธีการอนุมานที่ LLM ไม่ได้สร้างคำตอบในครั้งเดียว แต่ผ่านขั้นตอนกลางหลายขั้นตอน (เช่น การสร้างคำถามย่อย การตรวจสอบคำตอบบางส่วน การดึงข้อมูลเพิ่มเติม เป็นต้น) เพื่อให้ได้คำตอบสุดท้าย

RAG (Retrieval-Augmented Generation) คือเทคนิคที่ทำการค้นหาข้อมูลที่เกี่ยวข้องจากแหล่งความรู้ภายนอก แล้วนำผลลัพธ์ที่ได้มาเพิ่มเติมใน input ของ LLM เพื่อเพิ่มความแม่นยำและความทันสมัยของคำตอบ

RLHF คือวิธีการเรียนรู้เสริมแรง (Reinforcement Learning) ที่ใช้ข้อเสนอแนะจากมนุษย์เป็นรางวัล ส่วน RLVR คือวิธีการเรียนรู้เสริมแรงที่ใช้คำตอบที่ตรวจสอบได้เป็นรางวัล โดยทั้งสองวิธีถูกนำมาใช้เพื่อปรับผลลัพธ์ของ LLM ให้สอดคล้องกับความคาดหวังของมนุษย์
