ข้อมูลสำหรับการฝึกอบรมที่สร้างขึ้นโดย AI ใช้เพื่อชดเชยการขาดแคลนข้อมูลจริง และนำไปใช้ในการเรียนรู้และประเมินผลโมเดลในขณะที่ปกป้องความเป็นส่วนตัว
ข้อมูลสังเคราะห์ (Synthetic Data) คือชุดข้อมูลที่สร้างขึ้นโดยปัญญาประดิษฐ์หรืออัลกอริทึมแบบ Rule-based โดยไม่ใช้ข้อมูลจริงโดยตรง และถูกนำไปใช้อย่างแพร่หลายในการฝึก ประเมิน และ Distillation ของโมเดล
ข้อมูลจริงมีอุปสรรคสามประการ ได้แก่ "ปริมาณไม่เพียงพอ" "มีความลำเอียง" และ "มีข้อมูลส่วนบุคคล" ตัวอย่างเช่น ในวงการแพทย์ ข้อมูลภาพของโรคหายากมีอยู่น้อยมาก และในวงการการเงิน ข้อมูลธุรกรรมที่เป็นการฉ้อโกงมักมีสัดส่วนไม่ถึง 0.1% ของข้อมูลทั้งหมด ข้อมูลสังเคราะห์จึงเป็นวิธีการที่ใช้งานได้จริงในการเติมเต็มช่องว่างเหล่านี้
การผสมผสานกับ Knowledge Distillation กำลังแพร่หลายอย่างรวดเร็ว โดยการป้อน Prompt ที่หลากหลายให้กับ Teacher Model ขนาดใหญ่เพื่อสร้างคำตอบ แล้วนำ Output นั้นมาใช้เป็นข้อมูลฝึกสอนสำหรับ Student Model ซึ่งเป็น Pipeline ที่ได้รับการพิสูจน์จากความสำเร็จของ Microsoft Phi Series
นอกจากนี้ยังถูกนำมาใช้ในการสร้างข้อมูลฝึกสอนสำหรับ Fine-tuning ด้วย แนวทางการใช้ LLM สร้างคู่ Q&A โดยอัตโนมัติจากเอกสารภายในองค์กร แล้วนำข้อมูลดังกล่าวมาปรับปรุงคุณภาพการตอบของ RAG นั้น เป็นแนวทางที่ผู้เขียนเองก็มีผลลัพธ์ที่ดีจากโปรเจกต์ที่ผ่านมา
การฝึกโมเดลด้วยข้อมูลสังเคราะห์เพียงอย่างเดียวอาจทำให้เกิด "Model Collapse" ซึ่งเป็นภาวะที่โมเดลยิ่งเสริมรูปแบบ Output ของตัวเองมากขึ้นเรื่อยๆ ดังนั้นการออกแบบระบบปฏิบัติการที่บริหารจัดการสัดส่วนการผสมระหว่างข้อมูลจริงกับข้อมูลสังเคราะห์ และให้มนุษย์ตรวจสอบคุณภาพอย่างสม่ำเสมอจึงเป็นสิ่งที่ขาดไม่ได้


โมเดลข้อมูลที่แสดงเอนทิตีและความสัมพันธ์ในรูปแบบโครงสร้างกราฟ ใช้เพื่อเพิ่มความแม่นยำใน RAG และการค้นหาด้วย AI

RAG (Retrieval-Augmented Generation) คือเทคนิคที่ทำการค้นหาข้อมูลที่เกี่ยวข้องจากแหล่งความรู้ภายนอก แล้วนำผลลัพธ์ที่ได้มาเพิ่มเติมใน input ของ LLM เพื่อเพิ่มความแม่นยำและความทันสมัยของคำตอบ

Base Model (Foundation Model) คือโมเดล AI อเนกประสงค์ที่ผ่านการ Pre-training ด้วยชุดข้อมูลขนาดใหญ่ โดยไม่ได้เฉพาะเจาะจงสำหรับงานใดงานหนึ่ง แต่ทำหน้าที่เป็น "รากฐาน" ที่สามารถปรับใช้กับงานที่หลากหลายได้ผ่าน Fine-tuning หรือ Prompt Engineering


รายการตรวจสอบการปฏิบัติตามกฎหมาย PDPA ของไทยควบคู่กับการใช้งาน AI

สถาปัตยกรรม RAG รุ่นถัดไปที่ผสมผสาน Knowledge Graph และการค้นหาแบบ Vector เข้าด้วยกัน โดยใช้ประโยชน์จากความสัมพันธ์ระหว่าง Entity เพื่อเพิ่มความแม่นยำในการค้นหา