RLHF

RLHF คือวิธีการเรียนรู้เสริมแรง (Reinforcement Learning) ที่ใช้ข้อเสนอแนะจากมนุษย์เป็นรางวัล ส่วน RLVR คือวิธีการเรียนรู้เสริมแรงที่ใช้คำตอบที่ตรวจสอบได้เป็นรางวัล โดยทั้งสองวิธีถูกนำมาใช้เพื่อปรับผลลัพธ์ของ LLM ให้สอดคล้องกับความคาดหวังของมนุษย์
เทคโนโลยีที่เปลี่ยน LLM จาก "ฉลาด" ให้ "ใช้งานได้จริง"
LLM ที่ผ่านการ pre-training มาแล้วนั้นมีความรู้มหาศาล แต่ในสภาพดิบยังใช้งานได้ยาก เช่น แทนที่จะตอบคำถาม กลับสร้างข้อความต่อเนื่องออกมา หรืออาจสร้างเนื้อหาที่เป็นอันตราย กระบวนการที่เปลี่ยนสภาวะ "ฉลาดแต่จัดการยาก" ให้กลายเป็น "ฉลาดและใช้งานง่าย" เรียกว่า alignment (การปรับความสอดคล้อง) และเทคโนโลยีหลักของกระบวนการนี้คือ RLHF
RLHF: ให้มนุษย์เป็นผู้ตัดสิน
ใน RLHF (Reinforcement Learning from Human Feedback) annotator ที่เป็นมนุษย์จะเปรียบเทียบ output หลายรายการของโมเดลและประเมินว่า "อันนี้ดีกว่า" จากนั้นนำข้อมูลการประเมินดังกล่าวไปเทรน reward model แล้วปรับ LLM ด้วย reinforcement learning ให้มุ่งสู่การได้รับ reward ที่สูงขึ้น การที่ ChatGPT และ Claude สามารถตอบสนองได้ "เหมือนการสนทนาจริง" นั้นเป็นผลลัพธ์ของ RLHF
อย่างไรก็ตาม ยังมีความท้าทายอยู่ การประเมินโดยมนุษย์มีต้นทุนสูง มีความแปรปรวนเชิงอัตวิสัย และ scale ได้ยาก นอกจากนี้ยังมีการชี้ให้เห็นปัญหาที่เรียกว่า reward hacking ซึ่งคำตอบที่ "ดูสมเหตุสมผลแต่ผิด" กลับได้รับการประเมินสูง
RLVR: จำกัดเฉพาะงานที่สามารถตรวจสอบคำตอบได้
RLVR (Reinforcement Learning with Verifiable Rewards) คือวิธีการที่ได้รับความสนใจในปี 2025 จาก DeepSeek-R1 โดยจำกัดเฉพาะงานที่สามารถตรวจสอบความถูกต้องได้ด้วยเครื่องจักร เช่น การพิสูจน์ทางคณิตศาสตร์หรือผลลัพธ์จากการรันโค้ด และให้ reward โดยไม่ต้องผ่านการประเมินของมนุษย์
เนื่องจากไม่มีความเป็นอัตวิสัยของมนุษย์เข้ามาเกี่ยวข้อง noise ของ reward จึงน้อยลง และสามารถสร้าง feedback จำนวนมากได้ด้วยต้นทุนต่ำ ใน benchmark ด้านคณิตศาสตร์ การเขียนโค้ด และ formal logic มีรายงานว่าการปรับปรุงความแม่นยำของ RLVR นั้นเหนือกว่า RLHF อัลกอริทึมที่เป็นรูปธรรม เช่น GRPO และ DPO ต่างก็อยู่ในกระแสนี้
ควรใช้วิธีไหน
ทั้งสองวิธีไม่ได้ขัดแย้งกัน สำหรับงานที่ตรวจสอบได้ (การสร้างโค้ด คณิตศาสตร์ การตรวจสอบข้อเท็จจริง) RLVR มีประสิทธิภาพมากกว่า ในขณะที่งานซึ่ง "ไม่มีคำตอบที่ถูกต้องเพียงหนึ่งเดียว" เช่น การเขียนเชิงสร้างสรรค์หรือคุณภาพของการสนทนา ยังคงต้องพึ่ง RLHF อยู่ ในทางปฏิบัติ แนวทาง hybrid ที่ผสมผสานทั้งสองวิธีเข้าด้วยกันกำลังเพิ่มมากขึ้น
คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)
AI ROI คือ ตัวชี้วัดที่ใช้วัดผลลัพธ์เชิงปริมาณของการปรับปรุงประสิทธิภาพการทำงานและการเพิ่มรายได้ที่ไ

AI พยากรณ์ความต้องการ (Demand Forecasting AI)
AI คาดการณ์ความต้องการ (Demand Forecasting AI) คือระบบที่วิเคราะห์ข้อมูลการขายในอดีตและปัจจัยภายนอกด

AI ออบเซอร์แวนบิลิตี้ (AI Observability)
แนวปฏิบัติในการดำเนินงานเพื่อติดตามและแสดงผลข้อมูลการทำงานของระบบ AI ที่ใช้งานจริงอย่างต่อเนื่อง ทั้

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)
BPO คือรูปแบบการ outsourcing ที่องค์กรมอบหมายกระบวนการทางธุรกิจเฉพาะด้านให้กับผู้ให้บริการภายนอกที่ม