MoE (Mixture of Experts) หรือ การผสมผสานผู้เชี่ยวชาญ คืออะไร? อภิธานศัพท์ AI, DX & Security พร้อมแผนภาพ

MoE (Mixture of Experts) คือสถาปัตยกรรมที่มี "ผู้เชี่ยวชาญ" (Expert) ซับเน็ตเวิร์กหลายตัวภายในโมเดล โดยจะเปิดใช้งานเพียงบางส่วนสำหรับแต่ละอินพุต ซึ่งช่วยให้สามารถเพิ่มจำนวนพารามิเตอร์ทั้งหมดได้ในขณะที่ยังควบคุมต้นทุนการอนุมานให้อยู่ในระดับต่ำ

เร็วเพราะไม่ได้ใช้ทั้งหมด

เหตุใดโมเดลขนาดใหญ่อย่าง GPT-4 หรือ Llama 4 จึงสามารถ inference ได้ด้วยความเร็วที่ค่อนข้างเป็นจริงในทางปฏิบัติ คำตอบหนึ่งคือสถาปัตยกรรม MoE

ใน Transformer model แบบปกติ (Dense model) token ที่รับเข้ามาจะผ่านพารามิเตอร์ทั้งหมด หากเป็นโมเดลขนาด 100B พารามิเตอร์ น้ำหนัก 100B ตัวจะเข้าร่วมในการคำนวณทุกครั้ง แต่ใน MoE แม้โมเดลทั้งหมดจะมีพารามิเตอร์ถึง 2 ล้านล้านตัว การ inference แต่ละครั้งจะใช้จริงเพียงประมาณ 170B เท่านั้น — expert ที่เหลือจะถูกข้ามไปในฐานะ "ไม่มีบทบาทในรอบนี้"

สิ่งที่ทำหน้าที่ตัดสินใจว่าจะใช้ expert ใดคือ "gating network" (router) ซึ่งจะพิจารณาลักษณะของ token ที่รับเข้ามาแล้วเลือก expert ที่เหมาะสมที่สุด 2–4 ตัว เข้าใจได้ง่ายๆ ว่า หากเป็นโจทย์คณิตศาสตร์ก็จะเลือก expert สายลอจิก หากเป็นงานแปลภาษาก็จะเลือก expert สายภาษา

โมเดลที่นำไปใช้จริง

Llama 4 ของ Meta นำสถาปัตยกรรมนี้มาใช้ใน Scout (17B active / 109B total) และ Maverick (17B active / 400B total) ซีรีส์ Gemini ของ Google ก็ถูกระบุว่าใช้พื้นฐาน MoE เช่นกัน ส่วน Mixtral 8x7B ของ Mistral มีโครงสร้างที่รวม expert ขนาด 7B พารามิเตอร์จำนวน 8 ตัวเข้าด้วยกัน โดยใช้เพียง 2 ตัวในระหว่างการ inference

สิ่งที่มีเหมือนกันคือ "active parameter ในระหว่างการ inference น้อยกว่าจำนวนพารามิเตอร์ทั้งหมดอย่างมาก" ซึ่งช่วยให้รักษาความจุด้านความรู้ของโมเดลไว้ได้ ขณะเดียวกันก็ควบคุมความเร็วในการ inference และต้นทุนให้อยู่ในระดับที่เป็นจริงในทางปฏิบัติ

การเลือกใช้ร่วมกับ Dense model

Dense model ที่ใช้พารามิเตอร์ทั้งหมดนั้นเรียบง่ายและจัดการได้ง่ายในระดับขนาดเล็กถึงกลาง การ fine-tuning ก็ทำได้ตรงไปตรงมา MoE เป็นสถาปัตยกรรมที่แสดงศักยภาพที่แท้จริงในโมเดลขนาดใหญ่ และอาจไม่คุ้มค่ากับ overhead สำหรับโมเดลที่มีขนาดต่ำกว่าหลักสิบ B

นอกจากนี้ การ fine-tuning โมเดล MoE ยังต้องระมัดระวังไม่ให้ส่งผลกระทบต่อ expert ทั้งหมด และยังต้องอาศัยความรู้เฉพาะทางในการผสมผสานกับวิธี PEFT อย่าง LoRA เป็นต้น