Sparse Model (สปาร์สโมเดล) คือชื่อเรียกรวมของสถาปัตยกรรมเครือข่ายประสาทเทียมที่ในระหว่างการ Inference จะเปิดใช้งานเพียงบางส่วนของพารามิเตอร์ทั้งหมดของโมเดล ไม่ใช่ทุกพารามิเตอร์ ตัวอย่างที่เป็นที่รู้จักได้แก่ MoE (Mixture of Experts) ซึ่งใช้กลยุทธ์การ Scaling ที่แตกต่างจาก Dense Model กล่าวคือสามารถเพิ่มจำนวนพารามิเตอร์รวมได้ในขณะที่ยังควบคุมต้นทุนการ Inference ให้อยู่ในระดับต่ำ
## ความหมายของ "Sparse (เบาบาง)" ในบริบทของ Neural Network คำว่า "Sparse (เบาบาง)" หมายถึงสถานะที่สัดส่วนของการเชื่อมต่อหรือพารามิเตอร์ที่ถูกใช้งานจริงภายในเครือข่ายมีน้อย Dense Model ใช้พารามิเตอร์ทั้งหมดในการคำนวณโดยไม่คำนึงถึง input ในขณะที่ Sparse Model จะ activate เฉพาะ subset ของพารามิเตอร์ที่แตกต่างกันตาม input แต่ละรายการ เพื่อให้เข้าใจกลไกนี้อย่างเป็นรูปธรรม ลองนึกภาพห้องสมุดขนาดใหญ่ Dense Model เปรียบเสมือนบรรณารักษ์ที่อ่านหนังสือทุกเล่มในคลังทุกครั้งที่มีคำถาม ส่วน Sparse Model เปรียบเสมือนบรรณารักษ์ที่อ้างอิงเฉพาะชั้นหนังสือที่เกี่ยวข้องตามคำถามที่ได้รับ ## ความสัมพันธ์กับ MoE กระแสหลักของ Sparse Model ในปัจจุบันคือสถาปัตยกรรม MoE ใน MoE นั้น router จะกระจาย input token แต่ละรายการไปยัง expert จำนวนน้อย (โดยทั่วไป 2–4 ตัว) และ expert ที่ไม่ได้รับเลือกจะข้ามการคำนวณไป อย่างไรก็ตาม Sparse Model ไม่ได้จำกัดอยู่เพียง MoE เท่านั้น "Unstructured Sparsity" ที่ทำให้น้ำหนักส่วนใหญ่เป็นศูนย์ หรือวิธีการที่ปิดการใช้งาน attention head บางส่วนแบบไดนามิก ก็จัดอยู่ในขอบเขตของ Sparse Model เช่นกัน MoE เป็นเพียงหนึ่งในรูปแบบที่มีความก้าวหน้าในการนำไปใช้งานจริงมากที่สุดเท่านั้น ## เกณฑ์การเลือกระหว่าง Dense Model และ Sparse Model ข้อดีของ Sparse Model นั้นชัดเจน กล่าวคือสามารถบรรจุ "ความรู้" ลงในโมเดลได้มากขึ้นด้วยต้นทุนการ inference ที่เท่าเดิม Mixtral 8x7B มีพารามิเตอร์รวมทั้งหมด 46.7B แต่มี active parameter เพียง 12.9B ทำให้ต้นทุนการ inference เทียบเท่า Dense Model ระดับ 13B ในขณะที่ประสิทธิภาพใกล้เคียงกับระดับ 70B ในทางกลับกันก็มีความท้าทายเช่นกัน การออกแบบ load balancing ระหว่าง expert นั้นทำได้ยาก และหาก input กระจุกตัวอยู่ที่ expert ใด expert หนึ่ง ประโยชน์ของ Sparsity ก็จะลดลง นอกจากนี้ยังจำเป็นต้องโหลด expert ทั้งหมดลงใน GPU memory ทำให้ประสิทธิภาพด้านหน่วยความจำไม่ได้เรียบง่ายเหมือน Dense Model


Dense Model (โมเดลแบบเชื่อมต่อหนาแน่น) คือสถาปัตยกรรมเครือข่ายประสาทเทียมที่ใช้พารามิเตอร์ทั้งหมดของโมเดลในการคำนวณระหว่างการอนุมาน ต่างจาก MoE (Mixture of Experts) ที่เปิดใช้งานเฉพาะบางส่วนของ Expert Dense Model จะให้ weight ทั้งหมดมีส่วนร่วมในการประมวลผลเสมอ ไม่ว่า input จะเป็นอะไรก็ตาม

SLM (Small Language Model) คือชื่อเรียกรวมของโมเดลภาษาที่จำกัดจำนวนพารามิเตอร์ไว้ที่ระดับหลายพันล้านถึงประมาณหนึ่งหมื่นล้านพารามิเตอร์ โดยมีคุณสมบัติเด่นคือสามารถทำ Inference และ Fine-tuning ได้โดยใช้ทรัพยากรการคำนวณน้อยกว่า LLM

GPU (Graphics Processing Unit) คือชิปเซมิคอนดักเตอร์ที่ประมวลผลการคำนวณแบบขนานจำนวนมากได้อย่างรวดเร็ว เดิมทีได้รับการออกแบบมาเพื่อการเรนเดอร์ภาพกราฟิก แต่ความสามารถในการคำนวณแบบขนานนั้นเหมาะอย่างยิ่งสำหรับการเรียนรู้และการอนุมานของ AI จึงกลายเป็นฮาร์ดแวร์ที่ขาดไม่ได้สำหรับการฝึกและการ fine-tuning ของ LLM ในปัจจุบัน
