ข้อมูลสังเคราะห์ (Synthetic Data)とは？

ข้อมูลสังเคราะห์ (Synthetic Data)

Updated:27 มีนาคม 2569Published:25 มีนาคม 2569

ข้อมูลสำหรับการฝึกอบรมที่สร้างขึ้นโดย AI ใช้เพื่อชดเชยการขาดแคลนข้อมูลจริง และนำไปใช้ในการเรียนรู้และประเมินผลโมเดลในขณะที่ปกป้องความเป็นส่วนตัว

ข้อมูลสังเคราะห์คืออะไร

ข้อมูลสังเคราะห์ (Synthetic Data) คือชุดข้อมูลที่สร้างขึ้นโดยปัญญาประดิษฐ์หรืออัลกอริทึมแบบ Rule-based โดยไม่ใช้ข้อมูลจริงโดยตรง และถูกนำไปใช้อย่างแพร่หลายในการฝึก ประเมิน และ Distillation ของโมเดล

สถานการณ์ที่จำเป็นต้องใช้ข้อมูลสังเคราะห์

ข้อมูลจริงมีอุปสรรคสามประการ ได้แก่ "ปริมาณไม่เพียงพอ" "มีความลำเอียง" และ "มีข้อมูลส่วนบุคคล" ตัวอย่างเช่น ในวงการแพทย์ ข้อมูลภาพของโรคหายากมีอยู่น้อยมาก และในวงการการเงิน ข้อมูลธุรกรรมที่เป็นการฉ้อโกงมักมีสัดส่วนไม่ถึง 0.1% ของข้อมูลทั้งหมด ข้อมูลสังเคราะห์จึงเป็นวิธีการที่ใช้งานได้จริงในการเติมเต็มช่องว่างเหล่านี้

ข้อมูลสังเคราะห์ในยุค LLM

การผสมผสานกับ Knowledge Distillation กำลังแพร่หลายอย่างรวดเร็ว โดยการป้อน Prompt ที่หลากหลายให้กับ Teacher Model ขนาดใหญ่เพื่อสร้างคำตอบ แล้วนำ Output นั้นมาใช้เป็นข้อมูลฝึกสอนสำหรับ Student Model ซึ่งเป็น Pipeline ที่ได้รับการพิสูจน์จากความสำเร็จของ Microsoft Phi Series

นอกจากนี้ยังถูกนำมาใช้ในการสร้างข้อมูลฝึกสอนสำหรับ Fine-tuning ด้วย แนวทางการใช้ LLM สร้างคู่ Q&A โดยอัตโนมัติจากเอกสารภายในองค์กร แล้วนำข้อมูลดังกล่าวมาปรับปรุงคุณภาพการตอบของ RAG นั้น เป็นแนวทางที่ผู้เขียนเองก็มีผลลัพธ์ที่ดีจากโปรเจกต์ที่ผ่านมา

ความเสี่ยงที่ต้องระวัง

การฝึกโมเดลด้วยข้อมูลสังเคราะห์เพียงอย่างเดียวอาจทำให้เกิด "Model Collapse" ซึ่งเป็นภาวะที่โมเดลยิ่งเสริมรูปแบบ Output ของตัวเองมากขึ้นเรื่อยๆ ดังนั้นการออกแบบระบบปฏิบัติการที่บริหารจัดการสัดส่วนการผสมระหว่างข้อมูลจริงกับข้อมูลสังเคราะห์ และให้มนุษย์ตรวจสอบคุณภาพอย่างสม่ำเสมอจึงเป็นสิ่งที่ขาดไม่ได้

ข้อมูลสังเคราะห์ (Synthetic Data)

ข้อมูลสังเคราะห์คืออะไร

สถานการณ์ที่จำเป็นต้องใช้ข้อมูลสังเคราะห์

ข้อมูลสังเคราะห์ในยุค LLM

ความเสี่ยงที่ต้องระวัง

คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)

AI พยากรณ์ความต้องการ (Demand Forecasting AI)

AI ออบเซอร์แวนบิลิตี้ (AI Observability)

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)