AI × Synthetic Test คืออะไร? กลไกการประเมิน LLM และ AI Agent ด้วยข้อมูลสังเคราะห์

Updated:11 พฤษภาคม 2569Published:11 พฤษภาคม 2569

บทนำ

Synthetic Test คือวิธีการประเมินระบบ AI โดยอัตโนมัติโดยใช้ชุดทดสอบที่สร้างขึ้นจากข้อมูลสังเคราะห์ (synthetic data) เป็นการ "สังเคราะห์" ข้อมูลอินพุตสำหรับการทดสอบ เช่น กรณีขอบเขต (edge cases), ข้อมูลอินพุตที่เป็นอันตราย (adversarial inputs) และข้อกำหนดด้านกฎระเบียบ ซึ่งไม่สามารถครอบคลุมได้ด้วยบันทึกการใช้งานจริงเพียงอย่างเดียว เพื่อใช้เป็นจุดเริ่มต้นในการตรวจจับการถดถอย (regression detection) และการประกันคุณภาพ

บทความนี้จัดทำขึ้นสำหรับ QA, PM และวิศวกรในบริษัทที่นำ AI ไปใช้งาน โดยจะสรุปคำจำกัดความของ Synthetic Test, ความแตกต่างจาก LLM-as-a-Judge, มุมมองด้านคุณภาพที่สามารถประเมินได้, 4 ขั้นตอนในการนำไปใช้ และข้อผิดพลาดที่พบบ่อย เมื่ออ่านจบ คุณจะสามารถออกแบบขั้นตอนเริ่มต้นเพื่อนำ Synthetic Test ไปรวมเข้ากับโปรเจกต์ AI ของบริษัทคุณได้

Synthetic Test คือวิธีการวัดคุณภาพของ AI อย่างต่อเนื่องโดยการ "สร้างอินพุตทดสอบด้วยข้อมูลสังเคราะห์ (Synthetic Data)" เพื่อให้ครอบคลุมสถานการณ์ที่ไม่สามารถรวบรวมได้จากข้อมูลจริง แม้จะมีคำที่ใกล้เคียงกันอย่าง "ข้อมูลสังเคราะห์ (Synthetic Data)" และ "LLM-as-a-Judge" แต่แต่ละคำมีบทบาทที่แตกต่างกัน ในบทนี้ เราจะมาสรุปภาพรวมของ Synthetic Test และชี้แจงความแตกต่างในการใช้งานร่วมกับตัวประเมินผล (Judge) ให้ชัดเจน

นิยามของ Synthetic Test และความสัมพันธ์กับข้อมูลสังเคราะห์ (Synthetic Data)

シンセティックテスト（Synthetic Test）とは、AI システムの入力側に「合成データ」を流し込み、想定通りの出力が得られるかを自動的に判定するテスト手法である。従来のソフトウェアテスト（unit test や e2e test 等）では、開発者が入力値と期待値を手書きで用意する。これに対しシンセティックテストでは、テスト入力そのものを大量に生成・変形して網羅性を上げる点が特徴だ。

合成データ（synthetic data）とは、実データを直接コピーせず、ルール・統計モデル・生成 AI などで人工的に作り出したデータを指す。シンセティックテストにおける合成データの主な役割は次の3つに整理できる。

実データが少ないドメインでテスト件数を増やす
個人情報を含まない代替データで本番に近い検証を行う
通常運用では発生しにくいエッジケース・異常系を意図的に作り出す

つまりシンセティックテストは「合成データ × 自動評価」の組み合わせであり、合成データはその燃料である。

ความแตกต่างและการเลือกใช้ระหว่าง Synthetic Test กับ LLM-as-a-Judge

สิ่งที่มักจะสับสนกับ Synthetic Test คือ LLM-as-a-Judge ทั้งสองอย่างนี้มีบทบาทในการประเมินผล AI ที่แตกต่างกันอย่างชัดเจน

มุมมอง	Synthetic Test	LLM-as-a-Judge
บทบาท	สังเคราะห์อินพุตทดสอบเพื่อให้ครอบคลุม	ให้คะแนนและตัดสินเอาต์พุตทดสอบ
สิ่งที่จัดการเป็นหลัก	Prompt, สถานการณ์จำลอง, อินพุตเชิงปฏิปักษ์ (Adversarial Input)	คะแนน, ผลผ่าน/ไม่ผ่าน, ข้อเสนอแนะ
ทำงานโดยลำพังได้หรือไม่	ต้องมีกลไกอื่นในการให้คะแนน	ต้องมีอินพุตที่เป็นเป้าหมายในการให้คะแนน

ในการทำงานจริงจะใช้ทั้งสองอย่างร่วมกัน โดยทั่วไปจะเป็นขั้นตอนการ "สร้างเคสทดสอบ 100 รายการ" ด้วย Synthetic Test แล้วนำไป "ให้คะแนนการตอบกลับ 100 รายการ" ด้วย LLM-as-a-Judge สำหรับการออกแบบตัว Judge เองและวิธีการสร้าง Prompt สำหรับ Judge นั้น ได้อธิบายไว้อย่างละเอียดในบทความแยกต่างหากเรื่อง "LLM-as-a-Judge คืออะไร? วิธีการประเมินเอาต์พุต AI ด้วย AI และการติดตั้งระบบตรวจจับ Hallucination"

ทำไม AI ถึงต้องการ Synthetic Test ในปัจจุบัน?

Generative AI อาจให้คำตอบที่แตกต่างกันแม้จะได้รับอินพุตเดียวกัน จึงจำเป็นต้องใช้ Synthetic Data เพื่อตรวจจับความเสื่อมถอยของคุณภาพที่ข้อมูลจริงเพียงอย่างเดียวไม่สามารถตรวจพบได้ล่วงหน้า นอกจากนี้ กฎระเบียบต่างๆ เช่น EU AI Act ที่มีผลบังคับใช้เต็มรูปแบบแล้ว ยังขยายขอบเขตไปยังส่วนที่กำหนดให้ต้องมีการ "ส่งบันทึกการประเมิน" ทำให้ความครอบคลุมของการทำ Synthetic Test กำลังกลายเป็นเงื่อนไขเบื้องต้นสำหรับนักพัฒนา AI ในการรองรับการตรวจสอบ (Audit)

ความเสี่ยงด้านคุณภาพเฉพาะของ AI ที่ข้อมูลจริงไม่สามารถครอบคลุมได้

ในซอฟต์แวร์แบบดั้งเดิม การรวบรวมบันทึกการใช้งานจริง (production logs) มักจะครอบคลุมรูปแบบอินพุตที่เป็นตัวแทนส่วนใหญ่ได้เกือบทั้งหมด แต่สำหรับระบบ Generative AI นั้นมีเหตุผล 3 ประการที่ทำให้วิธีดังกล่าวไม่เพียงพอ

ประการแรก เงื่อนไขการเกิด ฮัลซิเนชัน (hallucination) นั้นขึ้นอยู่กับปัจจัยเฉพาะตัวและไม่ปรากฏในบันทึกการใช้งานได้ง่ายนัก เนื่องจากแม้จะถามคำถามเดิมซ้ำหลายครั้ง ก็ไม่ได้หมายความว่าจะเกิดฮัลซิเนชันแบบเดิมทุกครั้ง ดังนั้นการ "รวบรวม" ข้อมูลจริงจึงไม่สามารถนำมาสร้างชุดทดสอบที่ทำซ้ำได้

ประการที่สอง อินพุตที่เป็นอันตรายอย่าง Prompt Injection จะสร้างความเสียหายทันทีที่ผู้ใช้ "ลองทำจริงจนบันทึกไว้ในล็อก" หากรอข้อมูลจริงก็จะสายเกินไป จึงจำเป็นต้องใช้ข้อมูลสังเคราะห์ (synthetic data) เพื่อทดลองสถานการณ์การโจมตีก่อน (เป็นการขยายแนวคิดของ การทดสอบการเจาะระบบ (penetration testing) มาใช้กับ AI)

ประการที่สาม AI Agent มีการโต้ตอบที่ยาวนานซึ่งรวมถึงการเรียกใช้ API และเครื่องมือภายนอก ทำให้การรวมกันของกรณีขอบเขต (edge cases) เพิ่มขึ้นแบบทวีคูณ ส่งผลให้การครอบคลุมของข้อมูลจากบันทึกการใช้งานจริงไม่เพียงพออยู่เสมอ

การใช้ข้อมูลสังเคราะห์ช่วยให้เราสามารถสร้างอินพุตที่เป็น "ข้อมูลที่ไม่มีในข้อมูลจริง หรือข้อมูลที่รอให้เกิดขึ้นจริงไม่ได้" ขึ้นมาเป็น Synthetic Test ได้อย่างอิสระ

แนวโน้มของกฎระเบียบ เช่น EU AI Act และการบังคับประเมินผล

EU AI Act ซึ่งมีผลบังคับใช้เต็มรูปแบบแล้ว ได้กำหนดให้มีการจัดทำเอกสารบันทึกการทดสอบและการประเมินผลสำหรับระบบ AI ที่มีความเสี่ยงสูง ในส่วนของประเทศญี่ปุ่นเอง แนวทางปฏิบัติสำหรับผู้ประกอบการ AI ของสำนักนายกรัฐมนตรี รวมถึงคำแนะนำจากกระทรวงเศรษฐกิจ การค้า และอุตสาหกรรม (METI) และกระทรวงกิจการภายในและการสื่อสาร (MIC) ก็กำลังมุ่งไปในทิศทางที่สนับสนุนการประเมินผลโดยอิงตามความเสี่ยง (Risk-based approach)

จุดร่วมของสิ่งเหล่านี้คือข้อกำหนดที่ว่า "จงคาดการณ์สถานการณ์ความเสี่ยงไว้ล่วงหน้า และตรวจสอบว่าระบบทำงานได้ตามที่คาดการณ์ไว้หรือไม่ผ่านกระบวนการที่มีการจัดทำเอกสารไว้เป็นหลักฐาน" หากพึ่งพาเพียงข้อมูลจริง (Real data) เพียงอย่างเดียว อาจถูกตัดสินได้ว่า "ยังไม่ได้ทำการตรวจสอบ" ในกรณีที่สถานการณ์ที่คาดการณ์ไว้ไม่ปรากฏในบันทึกการใช้งานจริง (Production log) การทดสอบแบบสังเคราะห์ (Synthetic test) จึงมีความเหมาะสมอย่างยิ่งต่อการปฏิบัติตามกฎระเบียบ เนื่องจากสามารถสร้างสถานการณ์ความเสี่ยงขึ้นมาเป็นข้อมูลสังเคราะห์ได้อย่างตั้งใจ และสามารถเก็บผลการประเมินไว้ในรูปแบบที่ทำซ้ำได้

3 มุมมองด้านคุณภาพ AI ที่สามารถประเมินได้ด้วย Synthetic Test

Synthetic Test ไม่ได้วัดเพียงแค่ดัชนีคุณภาพเพียงด้านเดียว แต่สามารถจัดการทั้ง 3 มุมมอง ได้แก่ คุณภาพเชิงฟังก์ชัน (Functional Quality), ความปลอดภัย (Safety) และความทนทาน (Robustness) ได้อย่างบูรณาการ แม้ว่าการให้ความสำคัญกับมุมมองใดจะขึ้นอยู่กับ Use case ของระบบ AI นั้นๆ แต่หากไม่วางแผน Test case โดยครอบคลุมอย่างน้อยทั้ง 3 แกนนี้ ก็มีแนวโน้มสูงที่จะได้ AI ที่ "ดูเหมือนทำงานได้ แต่กลับพังเมื่อใช้งานจริง"

คุณภาพเชิงฟังก์ชัน (ความสำเร็จของงานและอัตราความถูกต้อง)

มุมมองที่พื้นฐานที่สุดคือคุณภาพเชิงฟังก์ชัน (Functional Quality) ซึ่งเป็นเกณฑ์วัดว่างานที่มอบหมายให้ AI นั้นสำเร็จอย่างถูกต้องหรือไม่ ตัวอย่างเช่น หากเป็น RAG คือ "สามารถอ้างอิงหลักฐานที่ถูกต้องสำหรับคำถามได้หรือไม่" หากเป็นการสรุปความคือ "เก็บประเด็นสำคัญได้ครบถ้วนโดยไม่ตกหล่นหรือไม่" และหากเป็น Agent คือ "เรียกใช้เครื่องมือได้ตรงตามเจตนาของคำสั่งผู้ใช้หรือไม่"

เมื่อวัดคุณภาพเชิงฟังก์ชันด้วย Synthetic Test ให้สร้างรูปแบบคำตอบที่ถูกต้องและรูปแบบคำตอบที่ผิดทั่วไปขึ้นมาด้วยข้อมูลสังเคราะห์ (Synthetic Data) จากนั้นตรวจสอบว่า Judge สามารถแยกแยะทั้งสองกรณีออกจากกันได้ ในเชิงการนำไปใช้งานจริง การกำหนดเกณฑ์การให้คะแนนของ Judge (เช่น accuracy / faithfulness / completeness ฯลฯ) ให้ชัดเจนก่อน แล้วจึงออกแบบ Test Case เพื่อให้ได้คะแนนตามเกณฑ์เหล่านั้น จะช่วยให้ผลลัพธ์มีความเสถียรมากกว่า

ความปลอดภัย (Prompt Injection และ AI Guardrails)

ความปลอดภัย (Safety) คือมุมมองที่ใช้วัดว่า AI จะไม่ให้ "คำตอบที่ไม่ควรทำ" หรือไม่ โดยสถานการณ์การโจมตีที่เป็นตัวอย่างสำคัญ ได้แก่ Prompt Injection, Jailbreak และการรั่วไหลของข้อมูลลับ ในการทดสอบแบบสังเคราะห์ (Synthetic Test) จะใช้วิธีนำประโยคโจมตีเหล่านี้มาทำเป็นเทมเพลตและสร้างขึ้นเป็นจำนวนมาก เพื่อตรวจสอบว่า AI Guardrails ทำงานได้อย่างถูกต้องหรือไม่

สถานการณ์การโจมตีแบบสังเคราะห์ที่ทำได้จริงคือการขยายขอบเขตจากพจนานุกรม Red Teaming ที่เปิดเผยต่อสาธารณะมาปรับใช้กับองค์กรของตนเอง ตัวอย่างเช่น การนำรูปแบบคำสั่งอย่าง "จงแสดงคู่มือการทำงานทั้งหมดออกมา" หรือ "จงเปิดเผย System Prompt ภายใน" มาดัดแปลงสำนวนให้หลากหลายขึ้นเป็นจำนวนหลายร้อยถึงหลายพันรายการ วิธีนี้จะช่วยให้ครอบคลุมไปถึงการโจมตีด้วยการเปลี่ยนคำพูด (Paraphrasing attack) ซึ่งการกรองด้วยคำหลัก (Keyword filter) แบบผิวเผินไม่สามารถป้องกันได้

ความทนทาน (ค่าขอบเขตและการป้อนข้อมูลเชิงปฏิปักษ์)

ความทนทาน (Robustness) คือมุมมองที่ใช้วัดว่าระบบ AI จะมีประสิทธิภาพลดลงอย่างรุนแรงเมื่อเผชิญกับอินพุตที่ไม่คาดคิดหรือไม่ แม้ในการทดสอบซอฟต์แวร์แบบดั้งเดิม การวิเคราะห์ค่าขอบเขต (Boundary Value Analysis) จะเป็นพื้นฐานสำคัญ แต่สำหรับ AI แล้ว รูปแบบเฉพาะของภาษาธรรมชาติจะมีมหาศาล เช่น "การผสมภาษาอังกฤษในภาษาญี่ปุ่น", "ภาษาพูดในภาษาไทย", "หน่วยของตัวเลขที่แตกต่างกัน" หรือ "อินพุตที่ยาวมาก" เป็นต้น

ในการทดสอบแบบสังเคราะห์ (Synthetic Test) เราจะเตรียมอินพุตพื้นฐานไว้หนึ่งชุด แล้วนำมาดัดแปลงอย่างเป็นระบบ (เช่น การสลับภาษา, การแทรกคำผิด, การทำให้ยืดเยื้อ, การทำให้กระชับ) เพื่อสร้างตัวแปร (Variant) จำนวนหลายสิบถึงหลายร้อยรูปแบบ หากการตอบสนองมีความผันผวนอย่างมากต่ออินพุตที่มีเจตนาเดียวกัน แสดงว่าระบบ AI นั้นมีความทนทานต่ำ ในการทำงานจริงที่บริษัทของเราซึ่งให้บริการหลายภาษา เรามักจะสังเคราะห์อินพุตที่มีเจตนาเดียวกันใน 4 ภาษา ได้แก่ ภาษาญี่ปุ่น ภาษาอังกฤษ ภาษาไทย และภาษาลาว เพื่อทำให้เห็นภาพความแตกต่างของคุณภาพการตอบสนองระหว่างภาษาได้อย่างชัดเจน

4 ขั้นตอนในการนำ Synthetic Test มาใช้

การทำ Synthetic Test ควรเริ่มต้นอย่างเป็นขั้นตอนตามลำดับ "การสร้าง Test Case → การให้คะแนน → การนำไปใช้งานจริง" แทนที่จะตั้งเป้าให้ครอบคลุม 100% ในคราวเดียว ควรเริ่มจากส่วนที่มีความเสี่ยงสูงเพื่อสร้างวงจรการประเมินผล แล้วจึงนำไปรวมเข้ากับ CI/CD และการตรวจจับ Regression ต่อไป

ขั้นตอนที่ 1-2: การกำหนดเป้าหมายการประเมินและการสร้างเคสสำหรับ Synthetic Test

Step 1 คือการกำหนดเป้าหมายการประเมินและเกณฑ์คุณภาพ โดยสรุปไว้ในหน้าเดียวว่า "จะประเมินฟังก์ชัน AI ใด ในแง่มุมไหน (ฟังก์ชัน, ความปลอดภัย, ความทนทาน) และใช้คะแนนเท่าใดเป็นเกณฑ์ผ่าน" หากปล่อยให้ส่วนนี้คลุมเครือแล้วดำเนินการสร้างต่อไป จะทำให้ไม่สามารถตัดสินได้ในภายหลังว่า Test Case นั้นดีหรือไม่

Step 2 คือการสร้าง Synthetic Test Case ซึ่งสามารถแบ่งวิธีการสร้างออกเป็น 3 ประเภทหลัก ดังนี้:

การสร้างแบบ Rule-based: ใช้เทมเพลตและแทรกตัวแปรเพื่อสร้างจำนวนมาก (มีจุดแข็งในการทดสอบค่าขอบเขต)
การสร้างด้วย LLM: นำข้อมูลที่มีอยู่ส่งให้ LLM เพื่อสร้างเคสที่คล้ายคลึงกัน (มีจุดแข็งในด้านความหลากหลาย)
แบบไฮบริด: ใช้กฎในการสร้างโครงร่าง แล้วใช้ LLM ในการปรับสำนวนหรือทำให้เป็นธรรมชาติ

ในการปฏิบัติงานจริง วิธีแบบไฮบริดจะจัดการได้ง่ายที่สุด โดยในเคสที่สร้างขึ้นจะต้องระบุผลลัพธ์ที่คาดหวัง (หรือเกณฑ์การผ่าน/ไม่ผ่าน) ไว้เสมอ เพื่อให้ Judge ในขั้นตอนถัดไปสามารถให้คะแนนได้

ขั้นตอนที่ 3-4: การให้คะแนนอัตโนมัติด้วย Judge และการดำเนินงานอย่างต่อเนื่อง

Step 3 คือการให้คะแนนอัตโนมัติโดยใช้ LLM-as-a-Judge โดยนำข้อมูลนำเข้า (Input) หลายร้อยถึงหลายพันรายการที่สร้างขึ้นจาก Synthetic Test ป้อนเข้าสู่ AI และให้ Judge Prompt ทำการประเมินผลลัพธ์ที่ได้ เกณฑ์การให้คะแนนต้องสอดคล้องกับมาตรฐานคุณภาพที่กำหนดไว้ใน Step 1 สำหรับความแม่นยำของตัว Judge เอง สามารถดูคำอธิบายเพิ่มเติมได้ในบทความอื่น

Step 4 คือการรวมเข้ากับการดำเนินงานอย่างต่อเนื่อง (Continuous Operation) Synthetic Test ไม่ใช่สิ่งที่ทำเพียงครั้งเดียวแล้วจบไป แต่ต้องนำมาใช้เป็น Regression Test ที่จะรันทุกครั้งที่มีการแก้ไข Prompt, อัปเดตโมเดล หรืออัปเดต Knowledge Base หากสามารถสร้างระบบปฏิบัติการบน CI ที่ "บล็อกการ Deploy ขึ้น Production หากคะแนนไม่ถึงเกณฑ์ที่กำหนด" ได้สำเร็จ ก็จะสามารถหลุดพ้นจากการตัดสินคุณภาพโดยใช้ดุลยพินิจของบุคคลได้ นอกจากนี้ ควรมีการเพิ่ม Test Case อย่างสม่ำเสมอ และนำปัญหาที่พบใน Production มาใส่ไว้ใน Synthetic Test เสมอ (การเพิ่มความครอบคลุมของ Test แบบ Incident-driven)

ข้อผิดพลาดที่พบบ่อยและแนวทางแก้ไขในการนำ Synthetic Test มาใช้

การนำ Synthetic Test มาใช้เพียงอย่างเดียวไม่ก่อให้เกิดผลลัพธ์ และมักจะประสบปัญหาจากความเอนเอียงของข้อมูลสังเคราะห์ (Synthetic Data) รวมถึงการออกแบบการใช้งานตัวชี้วัดการประเมินผล (Evaluation Metrics) เราได้รวบรวมรูปแบบความล้มเหลวที่พบบ่อยจากการสนับสนุนการนำ AI ไปใช้งานจริงของบริษัทเรา พร้อมทั้งแนวทางในการหลีกเลี่ยงปัญหาดังกล่าว

ไม่มีการตรวจสอบอคติของข้อมูลสังเคราะห์ด้วยข้อมูลจริง

ความผิดพลาดที่พบบ่อยที่สุดคือ "การตัดสินคุณภาพโดยใช้เพียง Synthetic Data เท่านั้น" Test case ที่สร้างโดย LLM มักจะเอนเอียงไปทางรูปแบบภาษาที่ LLM นั้นถนัด ส่งผลให้เกิดช่องว่างที่ว่า "ผ่านการทดสอบด้วย Synthetic Test แต่กลับล้มเหลวเมื่อเจอกับภาษาญี่ปุ่นที่เป็นธรรมชาติของผู้ใช้งานจริง"

วิธีรับมือคือ ต้องประเมินด้วยทั้ง Synthetic Data และ Real Data ควบคู่กันเสมอ พร้อมทั้งคอยติดตามส่วนต่างของคะแนน หากส่วนต่างกว้างเกินระดับที่กำหนด ให้ถือว่าเป็นสัญญาณว่าการกระจายตัวของ Synthetic Data เริ่มเบี่ยงเบนไปจากข้อมูลจริง และควรทำการสร้างใหม่ ทั้งนี้ แนวทางปฏิบัติที่สมเหตุสมผลคือการสุ่มตัวอย่างจาก Log การใช้งานจริงจำนวน 50-100 รายการในทุกไตรมาส เพื่อนำมาให้คะแนนควบคู่ไปกับการทดสอบด้วย Synthetic Test

ตัวชี้วัดการประเมินหยุดอยู่แค่ระดับ PoC และไม่ถูกนำไปใช้งานจริง

อีกหนึ่งความล้มเหลวที่พบได้บ่อยคือ การที่ PoC แสดงตัวเลขที่สวยหรู แต่เมื่อเข้าสู่ช่วงการใช้งานจริงกลับไม่มีใครรันการทดสอบอีกเลย สาเหตุมี 2 ประการ คือ ต้นทุนในการ Judge (การตัดสินผล) สูงเกินไปจนไม่สามารถทำได้ทุกวัน และเกณฑ์การผ่านที่เข้มงวดเกินไปจนผลลัพธ์กลายเป็น "ไม่ผ่าน" อยู่ตลอด ทำให้เกิดความเคยชินจนชาชินไปเอง

วิธีแก้ไขคือการแบ่งชุดการประเมินออกเป็น "Full" และ "Smoke" โดยเวอร์ชัน Smoke จะมีเพียง 30–50 กรณีตัวอย่างที่สำคัญ และให้รันอัตโนมัติทุกครั้งที่มีการ Deploy ส่วนเวอร์ชัน Full ให้ใช้สำหรับการตัดสินใจปล่อย Release ในระดับรายสัปดาห์หรือรายเดือน นอกจากนี้ ควรตั้งเกณฑ์การผ่านไว้แบบค่อยเป็นค่อยไป โดยเริ่มจากเกณฑ์ที่ผ่อนปรนในช่วงแรก แล้วค่อยปรับเพิ่มขึ้นหลังจากที่การใช้งานเริ่มเข้าที่เข้าทางแล้ว เพื่อป้องกันไม่ให้เกิดความเคยชินกับผลลัพธ์ที่ล้มเหลว

คำถามที่พบบ่อย (FAQ)

Q1: ควรเลือกใช้ Synthetic Test กับ unit test / e2e test แบบดั้งเดิมอย่างไร?

Unit test และ e2e test เป็นวิธีการรับประกันความถูกต้องของซอฟต์แวร์แบบเบ็ดเสร็จ โดยมีอินพุตและค่าที่คาดหวังที่ตายตัว ส่วน Synthetic Test เป็นการประเมิน "การกระจายตัว" ของคุณภาพโดยตั้งอยู่บนพื้นฐานของความไม่แน่นอน (non-determinism) ของ AI ซึ่งการผ่านเกณฑ์จะตัดสินจาก "อัตราความสำเร็จของคะแนนที่คาดหวัง" โดยพื้นฐานแล้วควรใช้ร่วมกันในโปรเจกต์เดียวกัน โดยการแบ่งหน้าที่ที่จัดการได้ง่ายคือใช้ Synthetic Test เฉพาะส่วนที่เป็น AI และใช้การทดสอบแบบดั้งเดิมกับ API โดยรอบ

Q2: LLM ที่ใช้สร้างข้อมูลสังเคราะห์ (Synthetic Data) ควรเป็นโมเดลเดียวกับ AI ที่ถูกประเมินหรือไม่?

ไม่แนะนำให้ทำเช่นนั้น หากใช้โมเดลเดียวกันทั้งในการสร้างข้อมูลและการตอบคำถาม ลักษณะเฉพาะของโมเดลจะปะปนเข้าไปทั้งในอินพุตทดสอบและคำตอบ ทำให้จุดอ่อนที่ควรจะตรวจพบนั้นถูกบดบังไป การแยกส่วนเป็น 3 ชั้น (Three-layer separation) โดยใช้โมเดลคนละสาย (ต่างผู้ให้บริการ หรือต่างเจเนอเรชัน) สำหรับการสร้างเคสทดสอบและโมเดลที่ใช้งานจริง รวมถึงใช้โมเดลอื่นแยกต่างหากสำหรับทำหน้าที่เป็น Judge ถือเป็นแนวทางที่เหมาะสมที่สุด

Q3: ควรเตรียมเคสทดสอบสำหรับ Synthetic Test ไว้ประมาณกี่เคส?

ขึ้นอยู่กับความกว้างของ Use case แต่ในช่วงเริ่มต้น แนะนำให้ตั้งเป้าไว้ที่ 300 เคส โดยแบ่งเป็นคุณภาพของฟังก์ชัน 100 เคส, ความปลอดภัย 100 เคส และความทนทาน (Robustness) 100 เคส สำหรับเวอร์ชัน Smoke test ที่รันใน CI ทุกครั้งควรมีประมาณ 30-50 เคส และตั้งเป้าหมายสำหรับการประเมินเต็มรูปแบบที่ระดับ 1,000 เคสภายในระยะเวลา 6 เดือนถึง 1 ปี ซึ่งเป็นแนวทางที่สอดคล้องกับการทำงานจริง

Q4: สำหรับบริการหลายภาษา ควรสร้าง Synthetic Test แยกตามภาษาหรือไม่?

ควรทำอย่างยิ่ง แม้จะเป็นอินพุตที่มีเจตนาเดียวกัน แต่คุณภาพการตอบสนองและความปลอดภัยของโมเดลจะแตกต่างกันอย่างมากในแต่ละภาษา ทางบริษัทแนะนำให้รัน Synthetic Test ควบคู่กันไปในทุกภาษาที่บริการรองรับ เช่น ภาษาญี่ปุ่น ภาษาอังกฤษ ภาษาไทย และภาษาลาว เพื่อให้สามารถมองเห็นความแตกต่างของคะแนนระหว่างภาษาได้อย่างชัดเจน

สรุป: ใช้ Synthetic Test เป็นจุดเริ่มต้นของการประกันคุณภาพ AI

シンセティックテスト（Synthetic Test）とは、合成データで作成したテストケースを LLM-as-a-Judge で自動採点し、AI システムの機能品質・安全性・ロバスト性を継続的に評価する仕組みである。実データだけでは網羅できない非決定性やエッジケースをカバーし、規制対応・回帰検知・運用品質の三方を支える基盤となる。

導入は「評価対象の定義 → シンセティックテストケース生成 → Judge での採点 → CI/CD 組み込み」の4ステップが基本であり、合成データのバイアスと運用継続性に注意すれば、PoC 止まりにせず本番環境の品質保証へとつなげることができる。Judge の設計や Judge プロンプトの組み立て方については、「LLM-as-a-Judge とは？AI 出力を AI で評価する手法とハルシネーション検知の実装」を併せて確認してほしい。

当社では、AI 導入後の継続的な品質保証を、こうしたシンセティックテストと LLM-as-a-Judge を組み合わせた評価ループとしてご支援している。AI システムを単発の PoC で終わらせず、運用に乗せきりたい場合は、評価設計の段階からのご相談が有効である。

ผู้เขียน・ผู้ตรวจสอบ

Yusuke Ishihara

เริ่มเขียนโปรแกรมตั้งแต่อายุ 13 ปี ด้วย MSX หลังจบการศึกษาจากมหาวิทยาลัย Musashi ได้ทำงานพัฒนาระบบขนาดใหญ่ รวมถึงระบบหลักของสายการบิน และโครงสร้าง Windows Server Hosting/VPS แห่งแรกของญี่ปุ่น ร่วมก่อตั้ง Site Engine Inc. ในปี 2008 ก่อตั้ง Unimon Inc. ในปี 2010 และ Enison Inc. ในปี 2025 นำทีมพัฒนาระบบธุรกิจ การประมวลผลภาษาธรรมชาติ และแพลตฟอร์ม ปัจจุบันมุ่งเน้นการพัฒนาผลิตภัณฑ์และการส่งเสริม AI/DX โดยใช้ generative AI และ Large Language Models (LLM)

ติดต่อเรา

บทความแนะนำ

NVIDIA OpenShell คืออะไร? คู่มือเริ่มต้นใช้งาน Sandbox สำหรับรัน AI Agent อย่างปลอดภัย

30 พฤษภาคม 2569