Dense Model (โมเดลแบบเชื่อมต่อหนาแน่น) คือสถาปัตยกรรมเครือข่ายประสาทเทียมที่ใช้พารามิเตอร์ทั้งหมดของโมเดลในการคำนวณระหว่างการอนุมาน ต่างจาก MoE (Mixture of Experts) ที่เปิดใช้งานเฉพาะบางส่วนของ Expert Dense Model จะให้ weight ทั้งหมดมีส่วนร่วมในการประมวลผลเสมอ ไม่ว่า input จะเป็นอะไรก็ตาม
## ทำไมถึงเรียกว่า "Dense" ในโลกของ Neural Network นั้น มีธรรมเนียมปฏิบัติที่เรียก Fully Connected Layer ว่า Dense Layer อยู่แล้ว คำเรียก Dense Model จึงสื่อถึงลักษณะเชิงโครงสร้างที่ว่า โมเดลทั้งหมดประกอบขึ้นจาก "การเชื่อมต่อที่ไม่มีช่องว่าง" นั่นคือ Parameter ทั้งหมดจะทำงานทุกครั้งที่มีการ Inference คำที่ถูกนำมาใช้เป็นคำตรงข้ามคือสถาปัตยกรรม MoE (Mixture of Experts) ใน MoE นั้น กลไก Routing จะคัดเลือก Expert เพียงจำนวนน้อยสำหรับแต่ละ Input Token และปล่อยให้ Expert ที่เหลืออยู่ในสถานะพักงาน ผลลัพธ์คือ แม้จำนวน Parameter รวมจะเท่ากัน แต่ปริมาณการคำนวณ (FLOPs) ในขณะ Inference จะลดลงอย่างมาก ที่ Mixtral 8x7B ถูกอธิบายว่า "มี Parameter 46.7B แต่ Active Parameter เพียง 12.9B" ก็เป็นเพราะกลไกนี้ ## จุดแข็งและข้อจำกัดของ Dense Model ข้อดีที่ยิ่งใหญ่ที่สุดของ Dense Model คือความเรียบง่ายในการออกแบบ ไม่จำเป็นต้องกังวลเรื่องความไม่สมดุลของ Routing หรือการกระจายภาระงานระหว่าง Expert (Load Balancing) ทำให้การ Training มีเสถียรภาพสูง ที่โมเดลหลักอย่าง Llama 3 Series และ Claude ยังคงใช้สถาปัตยกรรม Dense อย่างต่อเนื่อง ก็เพราะเสถียรภาพนี้มีความสำคัญอย่างยิ่งในการ Training ขนาดใหญ่ ในทางกลับกัน สิ่งที่หลีกเลี่ยงไม่ได้คือจำนวน Parameter ส่งผลโดยตรงต่อต้นทุนการ Inference Dense Model ขนาด 70B Parameter จะต้องอ่านและคำนวณน้ำหนักทั้ง 70B ทุกครั้งที่ Inference หากสามารถบรรลุคุณภาพที่เทียบเท่าได้ด้วย MoE ต้นทุนการ Inference อาจลดลงเหลือเพียงเศษเสี้ยวหนึ่ง ## เกณฑ์การตัดสินใจในทางปฏิบัติ ในการคัดเลือกโมเดล การตัดสินใจโดยพิจารณาความเหมาะสมกับ Workload จะมีประโยชน์ในทางปฏิบัติมากกว่าการมองว่าต้องเลือกระหว่าง Dense หรือ MoE เพียงอย่างใดอย่างหนึ่ง สำหรับการสนทนาแบบ Real-time ที่มีข้อกำหนด Latency เข้มงวด หรืองานที่มีรูปแบบ Input/Output หลากหลายจนคาดเดาการกระจุกตัวของ Expert ไม่ได้ ต้นทุนการคำนวณที่คาดการณ์ได้ของ Dense Model จะง่ายต่อการดูแลระบบมากกว่า ในทางตรงกันข้าม สำหรับการประมวลผลข้อความจำนวนมากด้วย Batch Inference หรือ Scenario ที่เน้น Throughput ประสิทธิภาพการคำนวณของ MoE จะแสดงศักยภาพได้อย่างเต็มที่ จากประสบการณ์ของผู้เขียน สิ่งที่ส่งผลกระทบมากที่สุดเมื่อต้องเปลี่ยนโมเดลในสภาพแวดล้อม Production ไม่ใช่ "จำนวน Parameter" แต่คือ "วิธีที่โมเดลโหลดลง GPU Memory" Dense 70B นั้นพอดีแบบหวุดหวิดบน A100 80GB จำนวน 2 ใบ ในขณะที่ MoE ที่มี Active Parameter 13B สามารถรันได้บนการ์ดเพียงใบเดียว ความแตกต่างนี้คือสิ่งที่กำหนดต้นทุนด้านโครงสร้างพื้นฐาน

Sparse Model (สปาร์สโมเดล) คือชื่อเรียกรวมของสถาปัตยกรรมเครือข่ายประสาทเทียมที่ในระหว่างการ Inference จะเปิดใช้งานเพียงบางส่วนของพารามิเตอร์ทั้งหมดของโมเดล ไม่ใช่ทุกพารามิเตอร์ ตัวอย่างที่เป็นที่รู้จักได้แก่ MoE (Mixture of Experts) ซึ่งใช้กลยุทธ์การ Scaling ที่แตกต่างจาก Dense Model กล่าวคือสามารถเพิ่มจำนวนพารามิเตอร์รวมได้ในขณะที่ยังควบคุมต้นทุนการ Inference ให้อยู่ในระดับต่ำ

MoE (Mixture of Experts) คือสถาปัตยกรรมที่มี "ผู้เชี่ยวชาญ" (Expert) ซับเน็ตเวิร์กหลายตัวภายในโมเดล โดยจะเปิดใช้งานเพียงบางส่วนสำหรับแต่ละอินพุต ซึ่งช่วยให้สามารถเพิ่มจำนวนพารามิเตอร์ทั้งหมดได้ในขณะที่ยังควบคุมต้นทุนการอนุมานให้อยู่ในระดับต่ำ

LLM (Large Language Model) คือชื่อเรียกรวมของโมเดลเครือข่ายประสาทเทียมที่มีพารามิเตอร์ตั้งแต่หลายพันล้านถึงหลายล้านล้านตัว ซึ่งผ่านการเรียนรู้ล่วงหน้าด้วยข้อมูลข้อความจำนวนมหาศาล และสามารถทำความเข้าใจและสร้างภาษาธรรมชาติได้อย่างแม่นยำสูง


PEFT (Parameter-Efficient Fine-Tuning) คืออะไร? เทคนิคลดต้นทุนการปรับแต่ง AI Model ได้ถึง 90%