MoE (Mixture of Experts) หรือ การผสมผสานผู้เชี่ยวชาญ

MoE (Mixture of Experts) คือสถาปัตยกรรมที่มี "ผู้เชี่ยวชาญ" (Expert) ซับเน็ตเวิร์กหลายตัวภายในโมเดล โดยจะเปิดใช้งานเพียงบางส่วนสำหรับแต่ละอินพุต ซึ่งช่วยให้สามารถเพิ่มจำนวนพารามิเตอร์ทั้งหมดได้ในขณะที่ยังควบคุมต้นทุนการอนุมานให้อยู่ในระดับต่ำ
เร็วเพราะไม่ได้ใช้ทั้งหมด
เหตุใดโมเดลขนาดใหญ่อย่าง GPT-4 หรือ Llama 4 จึงสามารถ inference ได้ด้วยความเร็วที่ค่อนข้างเป็นจริงในทางปฏิบัติ คำตอบหนึ่งคือสถาปัตยกรรม MoE
ใน Transformer model แบบปกติ (Dense model) token ที่รับเข้ามาจะผ่านพารามิเตอร์ทั้งหมด หากเป็นโมเดลขนาด 100B พารามิเตอร์ น้ำหนัก 100B ตัวจะเข้าร่วมในการคำนวณทุกครั้ง แต่ใน MoE แม้โมเดลทั้งหมดจะมีพารามิเตอร์ถึง 2 ล้านล้านตัว การ inference แต่ละครั้งจะใช้จริงเพียงประมาณ 170B เท่านั้น — expert ที่เหลือจะถูกข้ามไปในฐานะ "ไม่มีบทบาทในรอบนี้"
สิ่งที่ทำหน้าที่ตัดสินใจว่าจะใช้ expert ใดคือ "gating network" (router) ซึ่งจะพิจารณาลักษณะของ token ที่รับเข้ามาแล้วเลือก expert ที่เหมาะสมที่สุด 2–4 ตัว เข้าใจได้ง่ายๆ ว่า หากเป็นโจทย์คณิตศาสตร์ก็จะเลือก expert สายลอจิก หากเป็นงานแปลภาษาก็จะเลือก expert สายภาษา
โมเดลที่นำไปใช้จริง
Llama 4 ของ Meta นำสถาปัตยกรรมนี้มาใช้ใน Scout (17B active / 109B total) และ Maverick (17B active / 400B total) ซีรีส์ Gemini ของ Google ก็ถูกระบุว่าใช้พื้นฐาน MoE เช่นกัน ส่วน Mixtral 8x7B ของ Mistral มีโครงสร้างที่รวม expert ขนาด 7B พารามิเตอร์จำนวน 8 ตัวเข้าด้วยกัน โดยใช้เพียง 2 ตัวในระหว่างการ inference
สิ่งที่มีเหมือนกันคือ "active parameter ในระหว่างการ inference น้อยกว่าจำนวนพารามิเตอร์ทั้งหมดอย่างมาก" ซึ่งช่วยให้รักษาความจุด้านความรู้ของโมเดลไว้ได้ ขณะเดียวกันก็ควบคุมความเร็วในการ inference และต้นทุนให้อยู่ในระดับที่เป็นจริงในทางปฏิบัติ
การเลือกใช้ร่วมกับ Dense model
Dense model ที่ใช้พารามิเตอร์ทั้งหมดนั้นเรียบง่ายและจัดการได้ง่ายในระดับขนาดเล็กถึงกลาง การ fine-tuning ก็ทำได้ตรงไปตรงมา MoE เป็นสถาปัตยกรรมที่แสดงศักยภาพที่แท้จริงในโมเดลขนาดใหญ่ และอาจไม่คุ้มค่ากับ overhead สำหรับโมเดลที่มีขนาดต่ำกว่าหลักสิบ B
นอกจากนี้ การ fine-tuning โมเดล MoE ยังต้องระมัดระวังไม่ให้ส่งผลกระทบต่อ expert ทั้งหมด และยังต้องอาศัยความรู้เฉพาะทางในการผสมผสานกับวิธี PEFT อย่าง LoRA เป็นต้น
คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)
AI ROI คือ ตัวชี้วัดที่ใช้วัดผลลัพธ์เชิงปริมาณของการปรับปรุงประสิทธิภาพการทำงานและการเพิ่มรายได้ที่ไ

AI พยากรณ์ความต้องการ (Demand Forecasting AI)
AI คาดการณ์ความต้องการ (Demand Forecasting AI) คือระบบที่วิเคราะห์ข้อมูลการขายในอดีตและปัจจัยภายนอกด

AI ออบเซอร์แวนบิลิตี้ (AI Observability)
แนวปฏิบัติในการดำเนินงานเพื่อติดตามและแสดงผลข้อมูลการทำงานของระบบ AI ที่ใช้งานจริงอย่างต่อเนื่อง ทั้

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)
BPO คือรูปแบบการ outsourcing ที่องค์กรมอบหมายกระบวนการทางธุรกิจเฉพาะด้านให้กับผู้ให้บริการภายนอกที่ม