ข้อมูลสังเคราะห์ (Synthetic Data)

ข้อมูลสำหรับการฝึกอบรมที่สร้างขึ้นโดย AI ใช้เพื่อชดเชยการขาดแคลนข้อมูลจริง และนำไปใช้ในการเรียนรู้และประเมินผลโมเดลในขณะที่ปกป้องความเป็นส่วนตัว
ข้อมูลสังเคราะห์คืออะไร
ข้อมูลสังเคราะห์ (Synthetic Data) คือชุดข้อมูลที่สร้างขึ้นโดยปัญญาประดิษฐ์หรืออัลกอริทึมแบบ Rule-based โดยไม่ใช้ข้อมูลจริงโดยตรง และถูกนำไปใช้อย่างแพร่หลายในการฝึก ประเมิน และ Distillation ของโมเดล
สถานการณ์ที่จำเป็นต้องใช้ข้อมูลสังเคราะห์
ข้อมูลจริงมีอุปสรรคสามประการ ได้แก่ "ปริมาณไม่เพียงพอ" "มีความลำเอียง" และ "มีข้อมูลส่วนบุคคล" ตัวอย่างเช่น ในวงการแพทย์ ข้อมูลภาพของโรคหายากมีอยู่น้อยมาก และในวงการการเงิน ข้อมูลธุรกรรมที่เป็นการฉ้อโกงมักมีสัดส่วนไม่ถึง 0.1% ของข้อมูลทั้งหมด ข้อมูลสังเคราะห์จึงเป็นวิธีการที่ใช้งานได้จริงในการเติมเต็มช่องว่างเหล่านี้
ข้อมูลสังเคราะห์ในยุค LLM
การผสมผสานกับ Knowledge Distillation กำลังแพร่หลายอย่างรวดเร็ว โดยการป้อน Prompt ที่หลากหลายให้กับ Teacher Model ขนาดใหญ่เพื่อสร้างคำตอบ แล้วนำ Output นั้นมาใช้เป็นข้อมูลฝึกสอนสำหรับ Student Model ซึ่งเป็น Pipeline ที่ได้รับการพิสูจน์จากความสำเร็จของ Microsoft Phi Series
นอกจากนี้ยังถูกนำมาใช้ในการสร้างข้อมูลฝึกสอนสำหรับ Fine-tuning ด้วย แนวทางการใช้ LLM สร้างคู่ Q&A โดยอัตโนมัติจากเอกสารภายในองค์กร แล้วนำข้อมูลดังกล่าวมาปรับปรุงคุณภาพการตอบของ RAG นั้น เป็นแนวทางที่ผู้เขียนเองก็มีผลลัพธ์ที่ดีจากโปรเจกต์ที่ผ่านมา
ความเสี่ยงที่ต้องระวัง
การฝึกโมเดลด้วยข้อมูลสังเคราะห์เพียงอย่างเดียวอาจทำให้เกิด "Model Collapse" ซึ่งเป็นภาวะที่โมเดลยิ่งเสริมรูปแบบ Output ของตัวเองมากขึ้นเรื่อยๆ ดังนั้นการออกแบบระบบปฏิบัติการที่บริหารจัดการสัดส่วนการผสมระหว่างข้อมูลจริงกับข้อมูลสังเคราะห์ และให้มนุษย์ตรวจสอบคุณภาพอย่างสม่ำเสมอจึงเป็นสิ่งที่ขาดไม่ได้
คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)
AI ROI คือ ตัวชี้วัดที่ใช้วัดผลลัพธ์เชิงปริมาณของการปรับปรุงประสิทธิภาพการทำงานและการเพิ่มรายได้ที่ไ

AI พยากรณ์ความต้องการ (Demand Forecasting AI)
AI คาดการณ์ความต้องการ (Demand Forecasting AI) คือระบบที่วิเคราะห์ข้อมูลการขายในอดีตและปัจจัยภายนอกด

AI ออบเซอร์แวนบิลิตี้ (AI Observability)
แนวปฏิบัติในการดำเนินงานเพื่อติดตามและแสดงผลข้อมูลการทำงานของระบบ AI ที่ใช้งานจริงอย่างต่อเนื่อง ทั้

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)
BPO คือรูปแบบการ outsourcing ที่องค์กรมอบหมายกระบวนการทางธุรกิจเฉพาะด้านให้กับผู้ให้บริการภายนอกที่ม