SLM (Small Language Model) คือชื่อเรียกรวมของโมเดลภาษาที่จำกัดจำนวนพารามิเตอร์ไว้ที่ระดับหลายพันล้านถึงประมาณหนึ่งหมื่นล้านพารามิเตอร์ โดยมีคุณสมบัติเด่นคือสามารถทำ Inference และ Fine-tuning ได้โดยใช้ทรัพยากรการคำนวณน้อยกว่า LLM
ในโลกของ LLM นั้น "ยิ่งใหญ่ยิ่งฉลาด" ถือเป็นความเชื่อที่ยึดถือกันมายาวนาน GPT-4 มีพารามิเตอร์โดยประมาณถึง 1.8 ล้านล้านตัว ในขณะที่ SLM มีเพียง 1B ถึง 10B เท่านั้น ซึ่งต่างกันถึงสองหลัก อย่างไรก็ตาม หลังจากปี 2025 เป็นต้นมา ความเชื่อนี้กำลังพังทลายลงอย่างรวดเร็ว
Phi-4 (14B) ของ Microsoft ทำคะแนนในบางเบนช์มาร์กด้านการอนุมานได้เทียบเท่ากับ GPT-4o ส่วน Gemma 3 ของ Google ที่มีขนาดตั้งแต่ 1B ถึง 27B นั้น มีประสิทธิภาพต่อขนาดที่สูงมาก ด้วยการปรับปรุงสถาปัตยกรรมของโมเดลและการคัดสรรข้อมูลการเรียนรู้คุณภาพสูง ทำให้ "เล็กแต่มีประสิทธิภาพเพียงพอสำหรับงานเฉพาะด้าน" กลายเป็นความเป็นจริงขึ้นมาแล้ว
สนามรบหลักของ SLM มีอยู่ 3 แห่ง
Edge Device: สภาพแวดล้อมที่มีทรัพยากร GPU จำกัด เช่น สมาร์ทโฟน, IoT Gateway และอุปกรณ์ embedded ต่าง ๆ การที่ Apple รันการอนุมานแบบ on-device บน iPhone ถือเป็นตัวอย่างที่ชัดเจนของ SLM
การเพิ่มประสิทธิภาพด้านต้นทุน: การใช้โมเดลระดับ GPT-4 กับงานประจำ เช่น การจำแนกประเภท การสรุปความ และการดึงข้อมูล ถือว่าเกินความจำเป็น SLM สามารถลดต้นทุนการอนุมานลงได้มากกว่า 10 เท่าในบางกรณี
ข้อกำหนดด้าน Latency: สถานการณ์ที่ต้องการการตอบสนองในระดับหลายสิบมิลลิวินาที เช่น แชทแบบเรียลไทม์ การตอบสนองด้วยเสียง และ Game AI เนื่องจากมีพารามิเตอร์น้อยกว่า ความเร็วในการอนุมานจึงเร็วกว่าอย่างเห็นได้ชัด
ในสถานการณ์ที่ต้องการคำตอบแบบครอบจักรวาล เช่น การอนุมานที่ซับซ้อน การรองรับหลายภาษา และการสร้างข้อความยาว LLM ยังคงมีความได้เปรียบอยู่ ในทางกลับกัน หากสามารถจำกัดขอบเขตของงานได้ การ Fine-tuning SLM อาจให้ผลดีกว่าทั้งในด้านความแม่นยำ ความเร็ว และต้นทุน
ในทางปฏิบัติ กระบวนการที่กำลังกลายเป็นมาตรฐานคือ "สร้างต้นแบบด้วย LLM API ก่อน แล้วเมื่องานชัดเจนแล้วจึง distill ลงสู่ SLM เพื่อลดต้นทุน" โดย distillation (การกลั่น) คือเทคนิคการฝึกโมเดลขนาดเล็กโดยใช้ผลลัพธ์จากโมเดลขนาดใหญ่เป็นข้อมูลสำหรับการสอน


LLM (Large Language Model) คือชื่อเรียกรวมของโมเดลเครือข่ายประสาทเทียมที่มีพารามิเตอร์ตั้งแต่หลายพันล้านถึงหลายล้านล้านตัว ซึ่งผ่านการเรียนรู้ล่วงหน้าด้วยข้อมูลข้อความจำนวนมหาศาล และสามารถทำความเข้าใจและสร้างภาษาธรรมชาติได้อย่างแม่นยำสูง

Local LLM คือรูปแบบการใช้งานที่รันโมเดลภาษาขนาดใหญ่ (Large Language Model) โดยตรงบนเซิร์ฟเวอร์หรือพีซีของตนเอง โดยไม่ผ่าน Cloud API

Sparse Model (สปาร์สโมเดล) คือชื่อเรียกรวมของสถาปัตยกรรมเครือข่ายประสาทเทียมที่ในระหว่างการ Inference จะเปิดใช้งานเพียงบางส่วนของพารามิเตอร์ทั้งหมดของโมเดล ไม่ใช่ทุกพารามิเตอร์ ตัวอย่างที่เป็นที่รู้จักได้แก่ MoE (Mixture of Experts) ซึ่งใช้กลยุทธ์การ Scaling ที่แตกต่างจาก Dense Model กล่าวคือสามารถเพิ่มจำนวนพารามิเตอร์รวมได้ในขณะที่ยังควบคุมต้นทุนการ Inference ให้อยู่ในระดับต่ำ
