SLM (Small Language Model) ແມ່ນຊື່ເອີ້ນລວມຂອງໂມເດລພາສາທີ່ຈຳກັດຈຳນວນ Parameter ໄວ້ທີ່ປະມານຫຼາຍພັນລ້ານຫາໜຶ່ງໝື່ນລ້ານຕົວ, ໂດຍມີຄຸນລັກສະນະທີ່ສາມາດດຳເນີນການ Inference ແລະ Fine-tuning ໄດ້ດ້ວຍຊັບພະຍາກອນການຄຳນວນທີ່ໜ້ອຍກວ່າ LLM.
ໃນໂລກຂອງ LLM ມາເປັນເວລາດົນນານ ຄວາມເຊື່ອທີ່ວ່າ "ໃຫຍ່ກວ່າ ສະຫຼາດກວ່າ" ຖືເປັນເລື່ອງປົກກະຕິ. GPT-4 ມີ parameter ທີ່ຄາດຄະເນໄວ້ປະມານ 1.8 ລ້ານລ້ານ ໃນຂະນະທີ່ SLM ມີພຽງ 1B〜10B ເທົ່ານັ້ນ ຊຶ່ງຕ່າງກັນຖຶງ 2 ຂັ້ນ. ແຕ່ຫຼັງຈາກປີ 2025 ເປັນຕົ້ນໄປ ຄວາມເຊື່ອນີ້ກໍ່ກຳລັງພັງທະລາຍລົງຢ່າງໄວວາ.
Microsoft ຂອງ Phi-4 (14B) ໄດ້ສ້າງຄະແນນທີ່ທຽບເທົ່າກັບ GPT-4o ໃນ benchmark ການໃຊ້ເຫດຜົນຫຼາຍລາຍການ. Gemma 3 ຂອງ Google ໃນຊ່ວງ 1B〜27B ມີປະສິດທິພາບສູງຫຼາຍເມື່ອທຽບກັບຂະໜາດ. ດ້ວຍການປັບປຸງ model architecture ແລະ ການ curation ຂໍ້ມູນການຮຽນຮູ້ທີ່ມີຄຸນນະພາບສູງ ທຳໃຫ້ "ນ້ອຍແຕ່ມີປະສິດທິພາບພຽງພໍສຳລັບວຽກງານສະເພາະ" ກາຍເປັນຄວາມເປັນຈິງ.
ສະໜາມຮົບຫຼັກຂອງ SLM ມີ 3 ດ້ານ.
Edge device: ສະພາບແວດລ້ອມທີ່ຊັບພະຍາກອນ GPU ມີຈຳກັດ ເຊັ່ນ: smartphone, IoT gateway, ແລະ ອຸປະກອນ embedded ຕ່າງໆ. ການທີ່ Apple ດຳເນີນການ on-device inference ເທິງ iPhone ແມ່ນຕົວຢ່າງທີ່ຊັດເຈນຂອງ SLM.
ການເພີ່ມປະສິດທິພາບດ້ານຕົ້ນທຶນ: ການໃຊ້ GPT-4 class ສຳລັບວຽກງານປົກກະຕິ ເຊັ່ນ: ການຈັດປະເພດ, ການສະຫຼຸບ, ແລະ ການດຶງຂໍ້ມູນ ຖືວ່າ overspec ເກີນໄປ. ດ້ວຍ SLM ຄ່າໃຊ້ຈ່າຍໃນການ inference ອາດຫຼຸດລົງໄດ້ຫຼາຍກວ່າ 10 ເທົ່າ.
ຄວາມຕ້ອງການດ້ານ latency: ໃນສະຖານະການທີ່ຕ້ອງການການຕອບສະໜອງພາຍໃນຫຼາຍສິບ millisecond ເຊັ່ນ: real-time chat, ການຕອບສະໜອງດ້ວຍສຽງ, ແລະ game AI. ດ້ວຍ parameter ທີ່ໜ້ອຍກວ່າ ຄວາມໄວໃນການ inference ຈຶ່ງໄວກວ່າຢ່າງເຫັນໄດ້ຊັດ.
ໃນສະຖານະການທີ່ຕ້ອງການຄຳຕອບທີ່ຄອບຄຸມທຸກດ້ານ (ການໃຊ້ເຫດຜົນທີ່ສັບສົນ, ການຮອງຮັບຫຼາຍພາສາ, ການສ້າງຂໍ້ຄວາມຍາວ) LLM ຍັງຄົງມີຄວາມໄດ້ປຽບ. ໃນທາງກົງກັນຂ້າມ ຖ້າສາມາດກຳນົດຂອບເຂດວຽກງານໄດ້ ການ fine-tuning SLM ອາດດີກວ່າທັງໃນດ້ານຄວາມຖືກຕ້ອງ, ຄວາມໄວ, ແລະ ຕົ້ນທຶນ.
ໃນການປະຕິບັດຕົວຈິງ ຮູບແບບທີ່ກຳລັງກາຍເປັນມາດຕະຖານຄື "ສ້າງ prototype ດ້ວຍ LLM API ກ່ອນ ແລ້ວເມື່ອວຽກງານຊັດເຈນແລ້ວ ຈຶ່ງ distill ລົງໃນ SLM ເພື່ອຫຼຸດຕົ້ນທຶນ". Distillation ໝາຍເຖິງວິທີການຝຶກ model ຂະໜາດນ້ອຍ ໂດຍໃຊ້ output ຂອງ model ຂະໜາດໃຫຍ່ເປັນຂໍ້ມູນ teacher.


ໂອເພັນເວດໂມເດລ (Open-weight model) ແມ່ນໂມເດລພາສາທີ່ມີການເຜີຍແຜ່ນ້ຳໜັກ (parameters) ຂອງໂມເດລທີ່ຜ່ານການຝຶກສອນແລ້ວ ໂດຍສາມາດດາວໂຫຼດແລະນຳໃຊ້ໄດ້ຢ່າງເສລີສຳລັບການ inference ແລະ Fine-tuning.

LLM (Large Language Model) ແມ່ນຊື່ເອີ້ນລວມຂອງໂມເດລ neural network ທີ່ມີພາລາມິເຕີຈຳນວນຫຼາຍພັນລ້ານຫາຫຼາຍລ້ານລ້ານຕົວ ຊຶ່ງໄດ້ຮັບການຝຶກອົບຮົມລ່ວງໜ້າດ້ວຍຂໍ້ມູນຂໍ້ຄວາມຈຳນວນຫຼວງຫຼາຍ ແລະ ສາມາດເຂົ້າໃຈ ແລະ ສ້າງພາສາທຳມະຊາດໄດ້ດ້ວຍຄວາມຖືກຕ້ອງສູງ.

LoRA (Low-Rank Adaptation) ແມ່ນວິທີການທີ່ແຊກເມທຣິກຊ໌ຄວາມແຕກຕ່າງ rank ຕ່ຳເຂົ້າໄປໃນເມທຣິກຊ໌ນ້ຳໜັກຂອງ large language model ແລ້ວຝຶກສອນສະເພາະຄວາມແຕກຕ່າງດັ່ງກ່າວ ເຊິ່ງຊ່ວຍໃຫ້ສາມາດດຳເນີນການ fine-tuning ໄດ້ໂດຍການເພີ່ມ parameter ພຽງປະມານ 0.1〜1% ຂອງ model ທັງໝົດ.


ການປຽບທຽບການນຳໃຊ້ Local LLM / SLM — ການໃຊ້ AI ໂດຍບໍ່ຂຶ້ນກັບ Cloud API

GPU (Graphics Processing Unit) ແມ່ນຊິບເຊມີຄອນດັກເຕີທີ່ປະມວນຜົນການຄຳນວນຂະໜານຈຳນວນຫຼວງຫຼາຍໄດ້ຢ່າງວ່ອງໄວ. ເດີມທີຖືກອອກແບບມາສຳລັບການສ້າງຮູບພາບ, ແຕ່ຄວາມສາມາດໃນການຄຳນວນຂະໜານຂອງມັນເໝາະສົມກັບການຮຽນຮູ້ແລະການອ້າງເຫດຜົນຂອງ AI, ແລະໃນປັດຈຸບັນໄດ້ກາຍເປັນຮາດແວທີ່ຂາດບໍ່ໄດ້ສຳລັບການຝຶກອົບຮົມ (training) ແລະການ fine-tuning ຂອງ LLM.