Dense Model (โมเดลแบบหนาแน่น)とは？

Dense Model (โมเดลแบบหนาแน่น)

Updated:24 มีนาคม 2569Published:20 มีนาคม 2569

Dense Model (โมเดลแบบเชื่อมต่อหนาแน่น) คือสถาปัตยกรรมเครือข่ายประสาทเทียมที่ใช้พารามิเตอร์ทั้งหมดของโมเดลในการคำนวณระหว่างการอนุมาน ต่างจาก MoE (Mixture of Experts) ที่เปิดใช้งานเฉพาะบางส่วนของ Expert Dense Model จะให้ weight ทั้งหมดมีส่วนร่วมในการประมวลผลเสมอ ไม่ว่า input จะเป็นอะไรก็ตาม

ทำไมถึงเรียกว่า "Dense"

ในโลกของ Neural Network นั้น มีธรรมเนียมปฏิบัติที่เรียก Fully Connected Layer ว่า Dense Layer อยู่แล้ว คำเรียก Dense Model จึงสื่อถึงลักษณะเชิงโครงสร้างที่ว่า โมเดลทั้งหมดประกอบขึ้นจาก "การเชื่อมต่อที่ไม่มีช่องว่าง" นั่นคือ Parameter ทั้งหมดจะทำงานทุกครั้งที่มีการ Inference

คำที่ถูกนำมาใช้เป็นคำตรงข้ามคือสถาปัตยกรรม MoE (Mixture of Experts) ใน MoE นั้น กลไก Routing จะคัดเลือก Expert เพียงจำนวนน้อยสำหรับแต่ละ Input Token และปล่อยให้ Expert ที่เหลืออยู่ในสถานะพักงาน ผลลัพธ์คือ แม้จำนวน Parameter รวมจะเท่ากัน แต่ปริมาณการคำนวณ (FLOPs) ในขณะ Inference จะลดลงอย่างมาก ที่ Mixtral 8x7B ถูกอธิบายว่า "มี Parameter 46.7B แต่ Active Parameter เพียง 12.9B" ก็เป็นเพราะกลไกนี้

จุดแข็งและข้อจำกัดของ Dense Model

ข้อดีที่ยิ่งใหญ่ที่สุดของ Dense Model คือความเรียบง่ายในการออกแบบ ไม่จำเป็นต้องกังวลเรื่องความไม่สมดุลของ Routing หรือการกระจายภาระงานระหว่าง Expert (Load Balancing) ทำให้การ Training มีเสถียรภาพสูง ที่โมเดลหลักอย่าง Llama 3 Series และ Claude ยังคงใช้สถาปัตยกรรม Dense อย่างต่อเนื่อง ก็เพราะเสถียรภาพนี้มีความสำคัญอย่างยิ่งในการ Training ขนาดใหญ่

ในทางกลับกัน สิ่งที่หลีกเลี่ยงไม่ได้คือจำนวน Parameter ส่งผลโดยตรงต่อต้นทุนการ Inference Dense Model ขนาด 70B Parameter จะต้องอ่านและคำนวณน้ำหนักทั้ง 70B ทุกครั้งที่ Inference หากสามารถบรรลุคุณภาพที่เทียบเท่าได้ด้วย MoE ต้นทุนการ Inference อาจลดลงเหลือเพียงเศษเสี้ยวหนึ่ง

เกณฑ์การตัดสินใจในทางปฏิบัติ

ในการคัดเลือกโมเดล การตัดสินใจโดยพิจารณาความเหมาะสมกับ Workload จะมีประโยชน์ในทางปฏิบัติมากกว่าการมองว่าต้องเลือกระหว่าง Dense หรือ MoE เพียงอย่างใดอย่างหนึ่ง

สำหรับการสนทนาแบบ Real-time ที่มีข้อกำหนด Latency เข้มงวด หรืองานที่มีรูปแบบ Input/Output หลากหลายจนคาดเดาการกระจุกตัวของ Expert ไม่ได้ ต้นทุนการคำนวณที่คาดการณ์ได้ของ Dense Model จะง่ายต่อการดูแลระบบมากกว่า ในทางตรงกันข้าม สำหรับการประมวลผลข้อความจำนวนมากด้วย Batch Inference หรือ Scenario ที่เน้น Throughput ประสิทธิภาพการคำนวณของ MoE จะแสดงศักยภาพได้อย่างเต็มที่

จากประสบการณ์ของผู้เขียน สิ่งที่ส่งผลกระทบมากที่สุดเมื่อต้องเปลี่ยนโมเดลในสภาพแวดล้อม Production ไม่ใช่ "จำนวน Parameter" แต่คือ "วิธีที่โมเดลโหลดลง GPU Memory" Dense 70B นั้นพอดีแบบหวุดหวิดบน A100 80GB จำนวน 2 ใบ ในขณะที่ MoE ที่มี Active Parameter 13B สามารถรันได้บนการ์ดเพียงใบเดียว ความแตกต่างนี้คือสิ่งที่กำหนดต้นทุนด้านโครงสร้างพื้นฐาน

Dense Model (โมเดลแบบหนาแน่น)

ทำไมถึงเรียกว่า "Dense"

จุดแข็งและข้อจำกัดของ Dense Model

เกณฑ์การตัดสินใจในทางปฏิบัติ

คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)

AI พยากรณ์ความต้องการ (Demand Forecasting AI)

AI ออบเซอร์แวนบิลิตี้ (AI Observability)

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)