MoE (Mixture of Experts) คือสถาปัตยกรรมที่มี "ผู้เชี่ยวชาญ" (Expert) ซับเน็ตเวิร์กหลายตัวภายในโมเดล โดยจะเปิดใช้งานเพียงบางส่วนสำหรับแต่ละอินพุต ซึ่งช่วยให้สามารถเพิ่มจำนวนพารามิเตอร์ทั้งหมดได้ในขณะที่ยังควบคุมต้นทุนการอนุมานให้อยู่ในระดับต่ำ
เหตุใดโมเดลขนาดใหญ่อย่าง GPT-4 หรือ Llama 4 จึงสามารถ inference ได้ด้วยความเร็วที่ค่อนข้างเป็นจริงในทางปฏิบัติ คำตอบหนึ่งคือสถาปัตยกรรม MoE
ใน Transformer model แบบปกติ (Dense model) token ที่รับเข้ามาจะผ่านพารามิเตอร์ทั้งหมด หากเป็นโมเดลขนาด 100B พารามิเตอร์ น้ำหนัก 100B ตัวจะเข้าร่วมในการคำนวณทุกครั้ง แต่ใน MoE แม้โมเดลทั้งหมดจะมีพารามิเตอร์ถึง 2 ล้านล้านตัว การ inference แต่ละครั้งจะใช้จริงเพียงประมาณ 170B เท่านั้น — expert ที่เหลือจะถูกข้ามไปในฐานะ "ไม่มีบทบาทในรอบนี้"
สิ่งที่ทำหน้าที่ตัดสินใจว่าจะใช้ expert ใดคือ "gating network" (router) ซึ่งจะพิจารณาลักษณะของ token ที่รับเข้ามาแล้วเลือก expert ที่เหมาะสมที่สุด 2–4 ตัว เข้าใจได้ง่ายๆ ว่า หากเป็นโจทย์คณิตศาสตร์ก็จะเลือก expert สายลอจิก หากเป็นงานแปลภาษาก็จะเลือก expert สายภาษา
Llama 4 ของ Meta นำสถาปัตยกรรมนี้มาใช้ใน Scout (17B active / 109B total) และ Maverick (17B active / 400B total) ซีรีส์ Gemini ของ Google ก็ถูกระบุว่าใช้พื้นฐาน MoE เช่นกัน ส่วน Mixtral 8x7B ของ Mistral มีโครงสร้างที่รวม expert ขนาด 7B พารามิเตอร์จำนวน 8 ตัวเข้าด้วยกัน โดยใช้เพียง 2 ตัวในระหว่างการ inference
สิ่งที่มีเหมือนกันคือ "active parameter ในระหว่างการ inference น้อยกว่าจำนวนพารามิเตอร์ทั้งหมดอย่างมาก" ซึ่งช่วยให้รักษาความจุด้านความรู้ของโมเดลไว้ได้ ขณะเดียวกันก็ควบคุมความเร็วในการ inference และต้นทุนให้อยู่ในระดับที่เป็นจริงในทางปฏิบัติ
Dense model ที่ใช้พารามิเตอร์ทั้งหมดนั้นเรียบง่ายและจัดการได้ง่ายในระดับขนาดเล็กถึงกลาง การ fine-tuning ก็ทำได้ตรงไปตรงมา MoE เป็นสถาปัตยกรรมที่แสดงศักยภาพที่แท้จริงในโมเดลขนาดใหญ่ และอาจไม่คุ้มค่ากับ overhead สำหรับโมเดลที่มีขนาดต่ำกว่าหลักสิบ B
นอกจากนี้ การ fine-tuning โมเดล MoE ยังต้องระมัดระวังไม่ให้ส่งผลกระทบต่อ expert ทั้งหมด และยังต้องอาศัยความรู้เฉพาะทางในการผสมผสานกับวิธี PEFT อย่าง LoRA เป็นต้น


Dense Model (โมเดลแบบเชื่อมต่อหนาแน่น) คือสถาปัตยกรรมเครือข่ายประสาทเทียมที่ใช้พารามิเตอร์ทั้งหมดของโมเดลในการคำนวณระหว่างการอนุมาน ต่างจาก MoE (Mixture of Experts) ที่เปิดใช้งานเฉพาะบางส่วนของ Expert Dense Model จะให้ weight ทั้งหมดมีส่วนร่วมในการประมวลผลเสมอ ไม่ว่า input จะเป็นอะไรก็ตาม

MLOps คือแนวปฏิบัติที่มุ่งทำให้วงจรชีวิตทั้งหมดของการพัฒนา การเทรน การ deploy และการติดตามตรวจสอบโมเดล machine learning เป็นแบบอัตโนมัติและมีมาตรฐาน เพื่อให้สามารถดำเนินการโมเดลในสภาพแวดล้อม production ได้อย่างต่อเนื่อง

Sparse Model (สปาร์สโมเดล) คือชื่อเรียกรวมของสถาปัตยกรรมเครือข่ายประสาทเทียมที่ในระหว่างการ Inference จะเปิดใช้งานเพียงบางส่วนของพารามิเตอร์ทั้งหมดของโมเดล ไม่ใช่ทุกพารามิเตอร์ ตัวอย่างที่เป็นที่รู้จักได้แก่ MoE (Mixture of Experts) ซึ่งใช้กลยุทธ์การ Scaling ที่แตกต่างจาก Dense Model กล่าวคือสามารถเพิ่มจำนวนพารามิเตอร์รวมได้ในขณะที่ยังควบคุมต้นทุนการ Inference ให้อยู่ในระดับต่ำ


PEFT (Parameter-Efficient Fine-Tuning) คืออะไร? เทคนิคลดต้นทุนการปรับแต่ง AI Model ได้ถึง 90%

PoC Development คืออะไร? ตั้งแต่พื้นฐาน Proof of Concept ค่าใช้จ่าย ขั้นตอนการดำเนินงาน ไปจนถึงการเลือกผู้รับเหมาภายนอกที่ไม่ผิดพลาด

Multi-Agent AI คืออะไร? ครอบคลุมตั้งแต่รูปแบบการออกแบบไปจนถึงเคล็ดลับการใช้งานและการดำเนินการ