การประดิษฐ์ข้อมูลเท็จ (Hallucination)

Updated:21 มีนาคม 2569Published:20 มีนาคม 2569

ฮาลูซิเนชัน (Hallucination) คือปรากฏการณ์ที่ AI model สร้างข้อมูลที่ไม่มีข้อเท็จจริงรองรับ โดยนำเสนอราวกับว่าเป็นข้อมูลที่ถูกต้อง ซึ่งมีสาเหตุมาจากกลไกที่ LLM ใช้ในการสร้างข้อความที่ "น่าเชื่อถือ" จากรูปแบบของข้อมูลที่ใช้ในการเรียนรู้ และถือว่าเป็นเรื่องยากที่จะกำจัดออกไปได้อย่างสมบูรณ์

เหตุใดจึงเรียกว่า "Hallucination"

เช่นเดียวกับที่ภาพหลอนของมนุษย์คือการรับรู้สิ่งที่ไม่มีอยู่จริง AI Hallucination ก็คือการสร้าง "ข้อเท็จจริงที่ไม่มีอยู่จริง" เช่นกัน อย่างไรก็ตาม แตกต่างจากภาพหลอนของมนุษย์อย่างสิ้นเชิง เนื่องจาก LLM ไม่มีกลไกในการตัดสินว่า "สิ่งใดเป็นความจริงหรือไม่" มันเพียงแค่สร้าง Token ที่มีความน่าจะเป็นสูงที่จะตามมาอย่างต่อเนื่อง ซึ่งผลลัพธ์ที่ได้อาจบังเอิญตรงกับความเป็นจริง หรืออาจเป็นเรื่องแต่งขึ้นมาทั้งหมดก็ได้

รูปแบบที่พบได้ทั่วไป

Hallucination มีหลายประเภท ตัวอย่างที่พบบ่อย ได้แก่ การอ้างอิงบทความที่ไม่มีอยู่จริง (การสร้างชื่อผู้แต่งและ DOI ที่เป็นเท็จ) การสร้างประวัติเท็จให้กับบุคคลที่มีตัวตนจริง และการปลอมแปลงข้อมูลตัวเลขที่ดูน่าเชื่อถือ

สิ่งที่ทำให้ยากต่อการรับมือคือ ผลลัพธ์ของ Hallucination นั้นถูกต้องทางไวยากรณ์และกลมกลืนเข้ากับบริบทได้อย่างเป็นธรรมชาติ หากเป็นข้อผิดพลาดที่ชัดเจนก็สังเกตได้ง่าย แต่รูปแบบที่ "ถูกต้อง 9 ส่วน เท็จเพียง 1 ส่วน" นั้นทำให้การตรวจจับเป็นเรื่องยาก

แนวทางการรับมือ

แนวทางที่มีประสิทธิภาพในปัจจุบันคือการนำ RAG (Retrieval-Augmented Generation) มาใช้ โดยก่อนที่โมเดลจะสร้างคำตอบ ระบบจะค้นหาข้อมูลที่เกี่ยวข้องจาก Knowledge Base ภายนอก แล้วให้โมเดลตอบโดยอิงจากข้อมูลดังกล่าว ซึ่งช่วยเพิ่มความน่าจะเป็นที่ผลลัพธ์จะสอดคล้องกับข้อเท็จจริง

อีกแนวทางหนึ่งคือการผนวก HITL (Human-in-the-Loop) เข้าไปในกระบวนการ โดยออกแบบ Flow ให้มนุษย์ตรวจสอบผลลัพธ์ของ AI เพื่อลดความเสี่ยงที่ Hallucination จะปะปนอยู่ในผลงานขั้นสุดท้าย ในสาขาที่ค่าใช้จ่ายจากข้อมูลผิดพลาดสูง เช่น การแพทย์และกฎหมาย การผสมผสานแนวทางทั้งสองนี้กำลังกลายเป็นมาตรฐานโดยพฤตินัย

คำศัพท์ที่เกี่ยวข้อง

ข้อมูลสังเคราะห์ (Synthetic Data)

ข้อมูลสำหรับการฝึกอบรมที่สร้างขึ้นโดย AI ใช้เพื่อชดเชยการขาดแคลนข้อมูลจริง และนำไปใช้ในการเรียนรู้และประเมินผลโมเดลในขณะที่ปกป้องความเป็นส่วนตัว

การต่อลงดิน (Grounding)

เทคนิคการนำผลลัพธ์จาก LLM มาตรวจสอบเทียบกับแหล่งข้อมูลภายนอกหรือผลการค้นหา เพื่อสร้างคำตอบที่อิงข้อเท็จจริง ถือเป็นวิธีหลักในการลด Hallucination

RAG (การสร้างข้อความเสริมด้วยการดึงข้อมูล)

RAG (Retrieval-Augmented Generation) คือเทคนิคที่ทำการค้นหาข้อมูลที่เกี่ยวข้องจากแหล่งความรู้ภายนอก แล้วนำผลลัพธ์ที่ได้มาเพิ่มเติมใน input ของ LLM เพื่อเพิ่มความแม่นยำและความทันสมัยของคำตอบ