โมเดลแบบกระจาย (Sparse Model) คืออะไร? อภิธานศัพท์ AI, DX & Security พร้อมแผนภาพ

Sparse Model (สปาร์สโมเดล) คือชื่อเรียกรวมของสถาปัตยกรรมเครือข่ายประสาทเทียมที่ในระหว่างการ Inference จะเปิดใช้งานเพียงบางส่วนของพารามิเตอร์ทั้งหมดของโมเดล ไม่ใช่ทุกพารามิเตอร์ ตัวอย่างที่เป็นที่รู้จักได้แก่ MoE (Mixture of Experts) ซึ่งใช้กลยุทธ์การ Scaling ที่แตกต่างจาก Dense Model กล่าวคือสามารถเพิ่มจำนวนพารามิเตอร์รวมได้ในขณะที่ยังควบคุมต้นทุนการ Inference ให้อยู่ในระดับต่ำ

ความหมายของ "Sparse (เบาบาง)"

ในบริบทของ Neural Network คำว่า "Sparse (เบาบาง)" หมายถึงสถานะที่สัดส่วนของการเชื่อมต่อหรือพารามิเตอร์ที่ถูกใช้งานจริงภายในเครือข่ายมีน้อย Dense Model ใช้พารามิเตอร์ทั้งหมดในการคำนวณโดยไม่คำนึงถึง input ในขณะที่ Sparse Model จะ activate เฉพาะ subset ของพารามิเตอร์ที่แตกต่างกันตาม input แต่ละรายการ

เพื่อให้เข้าใจกลไกนี้อย่างเป็นรูปธรรม ลองนึกภาพห้องสมุดขนาดใหญ่ Dense Model เปรียบเสมือนบรรณารักษ์ที่อ่านหนังสือทุกเล่มในคลังทุกครั้งที่มีคำถาม ส่วน Sparse Model เปรียบเสมือนบรรณารักษ์ที่อ้างอิงเฉพาะชั้นหนังสือที่เกี่ยวข้องตามคำถามที่ได้รับ

ความสัมพันธ์กับ MoE

กระแสหลักของ Sparse Model ในปัจจุบันคือสถาปัตยกรรม MoE ใน MoE นั้น router จะกระจาย input token แต่ละรายการไปยัง expert จำนวนน้อย (โดยทั่วไป 2–4 ตัว) และ expert ที่ไม่ได้รับเลือกจะข้ามการคำนวณไป

อย่างไรก็ตาม Sparse Model ไม่ได้จำกัดอยู่เพียง MoE เท่านั้น "Unstructured Sparsity" ที่ทำให้น้ำหนักส่วนใหญ่เป็นศูนย์ หรือวิธีการที่ปิดการใช้งาน attention head บางส่วนแบบไดนามิก ก็จัดอยู่ในขอบเขตของ Sparse Model เช่นกัน MoE เป็นเพียงหนึ่งในรูปแบบที่มีความก้าวหน้าในการนำไปใช้งานจริงมากที่สุดเท่านั้น

เกณฑ์การเลือกระหว่าง Dense Model และ Sparse Model

ข้อดีของ Sparse Model นั้นชัดเจน กล่าวคือสามารถบรรจุ "ความรู้" ลงในโมเดลได้มากขึ้นด้วยต้นทุนการ inference ที่เท่าเดิม Mixtral 8x7B มีพารามิเตอร์รวมทั้งหมด 46.7B แต่มี active parameter เพียง 12.9B ทำให้ต้นทุนการ inference เทียบเท่า Dense Model ระดับ 13B ในขณะที่ประสิทธิภาพใกล้เคียงกับระดับ 70B

ในทางกลับกันก็มีความท้าทายเช่นกัน การออกแบบ load balancing ระหว่าง expert นั้นทำได้ยาก และหาก input กระจุกตัวอยู่ที่ expert ใด expert หนึ่ง ประโยชน์ของ Sparsity ก็จะลดลง นอกจากนี้ยังจำเป็นต้องโหลด expert ทั้งหมดลงใน GPU memory ทำให้ประสิทธิภาพด้านหน่วยความจำไม่ได้เรียบง่ายเหมือน Dense Model