RLHF คือวิธีการเรียนรู้เสริมแรง (Reinforcement Learning) ที่ใช้ข้อเสนอแนะจากมนุษย์เป็นรางวัล ส่วน RLVR คือวิธีการเรียนรู้เสริมแรงที่ใช้คำตอบที่ตรวจสอบได้เป็นรางวัล โดยทั้งสองวิธีถูกนำมาใช้เพื่อปรับผลลัพธ์ของ LLM ให้สอดคล้องกับความคาดหวังของมนุษย์
## เทคโนโลยีที่เปลี่ยน LLM จาก "ฉลาด" ให้ "ใช้งานได้จริง" LLM ที่ผ่านการ pre-training มาแล้วนั้นมีความรู้มหาศาล แต่ในสภาพดิบยังใช้งานได้ยาก เช่น แทนที่จะตอบคำถาม กลับสร้างข้อความต่อเนื่องออกมา หรืออาจสร้างเนื้อหาที่เป็นอันตราย กระบวนการที่เปลี่ยนสภาวะ "ฉลาดแต่จัดการยาก" ให้กลายเป็น "ฉลาดและใช้งานง่าย" เรียกว่า alignment (การปรับความสอดคล้อง) และเทคโนโลยีหลักของกระบวนการนี้คือ RLHF ## RLHF: ให้มนุษย์เป็นผู้ตัดสิน ใน RLHF (Reinforcement Learning from Human Feedback) annotator ที่เป็นมนุษย์จะเปรียบเทียบ output หลายรายการของโมเดลและประเมินว่า "อันนี้ดีกว่า" จากนั้นนำข้อมูลการประเมินดังกล่าวไปเทรน reward model แล้วปรับ LLM ด้วย reinforcement learning ให้มุ่งสู่การได้รับ reward ที่สูงขึ้น การที่ ChatGPT และ Claude สามารถตอบสนองได้ "เหมือนการสนทนาจริง" นั้นเป็นผลลัพธ์ของ RLHF อย่างไรก็ตาม ยังมีความท้าทายอยู่ การประเมินโดยมนุษย์มีต้นทุนสูง มีความแปรปรวนเชิงอัตวิสัย และ scale ได้ยาก นอกจากนี้ยังมีการชี้ให้เห็นปัญหาที่เรียกว่า reward hacking ซึ่งคำตอบที่ "ดูสมเหตุสมผลแต่ผิด" กลับได้รับการประเมินสูง ## RLVR: จำกัดเฉพาะงานที่สามารถตรวจสอบคำตอบได้ RLVR (Reinforcement Learning with Verifiable Rewards) คือวิธีการที่ได้รับความสนใจในปี 2025 จาก DeepSeek-R1 โดยจำกัดเฉพาะงานที่สามารถตรวจสอบความถูกต้องได้ด้วยเครื่องจักร เช่น การพิสูจน์ทางคณิตศาสตร์หรือผลลัพธ์จากการรันโค้ด และให้ reward โดยไม่ต้องผ่านการประเมินของมนุษย์ เนื่องจากไม่มีความเป็นอัตวิสัยของมนุษย์เข้ามาเกี่ยวข้อง noise ของ reward จึงน้อยลง และสามารถสร้าง feedback จำนวนมากได้ด้วยต้นทุนต่ำ ใน benchmark ด้านคณิตศาสตร์ การเขียนโค้ด และ formal logic มีรายงานว่าการปรับปรุงความแม่นยำของ RLVR นั้นเหนือกว่า RLHF อัลกอริทึมที่เป็นรูปธรรม เช่น GRPO และ DPO ต่างก็อยู่ในกระแสนี้ ## ควรใช้วิธีไหน ทั้งสองวิธีไม่ได้ขัดแย้งกัน สำหรับงานที่ตรวจสอบได้ (การสร้างโค้ด คณิตศาสตร์ การตรวจสอบข้อเท็จจริง) RLVR มีประสิทธิภาพมากกว่า ในขณะที่งานซึ่ง "ไม่มีคำตอบที่ถูกต้องเพียงหนึ่งเดียว" เช่น การเขียนเชิงสร้างสรรค์หรือคุณภาพของการสนทนา ยังคงต้องพึ่ง RLHF อยู่ ในทางปฏิบัติ แนวทาง hybrid ที่ผสมผสานทั้งสองวิธีเข้าด้วยกันกำลังเพิ่มมากขึ้น


SLM (Small Language Model) คือชื่อเรียกรวมของโมเดลภาษาที่จำกัดจำนวนพารามิเตอร์ไว้ที่ระดับหลายพันล้านถึงประมาณหนึ่งหมื่นล้านพารามิเตอร์ โดยมีคุณสมบัติเด่นคือสามารถทำ Inference และ Fine-tuning ได้โดยใช้ทรัพยากรการคำนวณน้อยกว่า LLM

LLM (Large Language Model) คือชื่อเรียกรวมของโมเดลเครือข่ายประสาทเทียมที่มีพารามิเตอร์ตั้งแต่หลายพันล้านถึงหลายล้านล้านตัว ซึ่งผ่านการเรียนรู้ล่วงหน้าด้วยข้อมูลข้อความจำนวนมหาศาล และสามารถทำความเข้าใจและสร้างภาษาธรรมชาติได้อย่างแม่นยำสูง

RAG (Retrieval-Augmented Generation) คือเทคนิคที่ทำการค้นหาข้อมูลที่เกี่ยวข้องจากแหล่งความรู้ภายนอก แล้วนำผลลัพธ์ที่ได้มาเพิ่มเติมใน input ของ LLM เพื่อเพิ่มความแม่นยำและความทันสมัยของคำตอบ


การเปรียบเทียบการติดตั้ง LLM / SLM แบบโลคอล — การใช้ AI โดยไม่พึ่งพา Cloud API