Sparse Model (ສະປາດໂມເດວ) ແມ່ນຊື່ເອີ້ນລວມຂອງສະຖາປັດຕະຍະກຳ neural network ທີ່ເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງ parameter ຂອງໂມເດວ ແທນທີ່ຈະໃຊ້ທຸກ parameter ໃນເວລາ inference. ຕົວຢ່າງທີ່ເປັນຕົວແທນຄື MoE (Mixture of Experts) ເຊິ່ງໃຊ້ກົນລະຍຸດການ scaling ທີ່ແຕກຕ່າງຈາກ Dense Model ໂດຍການເພີ່ມຈຳນວນ parameter ທັງໝົດ ໃນຂະນະທີ່ຍັງຄວບຄຸມຕົ້ນທຶນຂອງ inference ໄວ້ໄດ້.
## ຄວາມໝາຍຂອງຄວາມ "Sparse (ຊຸດໂຊນ)" ໃນບໍລິບົດຂອງ Neural Network ຄຳວ່າ "Sparse (ຊຸດໂຊນ)" ໝາຍເຖິງສະຖານະທີ່ການເຊື່ອມຕໍ່ ຫຼື Parameter ພາຍໃນ Network ທີ່ຖືກໃຊ້ງານຈິງມີສັດສ່ວນໜ້ອຍ. Dense Model ໃຊ້ Parameter ທັງໝົດໃນການຄຳນວນໂດຍບໍ່ຂຶ້ນກັບ Input ໃດ, ໃນຂະນະທີ່ Sparse Model ຈະ Activate ສະເພາະ Subset ຂອງ Parameter ທີ່ແຕກຕ່າງກັນໄປຕາມ Input ແຕ່ລະຄັ້ງ. ເພື່ອໃຫ້ເຂົ້າໃຈກົນໄກນີ້ຢ່າງງ່າຍດາຍ, ລອງຈິນຕະນາການຫ້ອງສະໝຸດຂະໜາດໃຫຍ່. Dense Model ຄືພະນັກງານຫ້ອງສະໝຸດທີ່ອ່ານໜັງສືທຸກເຫຼັ້ມທຸກຄັ້ງທີ່ມີຄຳຖາມ, ສ່ວນ Sparse Model ຄືພະນັກງານທີ່ອ້າງອີງສະເພາະຊັ້ນວາງທີ່ກ່ຽວຂ້ອງຕາມຄຳຖາມທີ່ໄດ້ຮັບ. ## ຄວາມສຳພັນກັບ MoE Sparse Model ກະແສຫຼັກໃນປັດຈຸບັນແມ່ນ Architecture ແບບ MoE. ໃນ MoE Router ຈະແຈກຢາຍ Input Token ແຕ່ລະອັນໄປຫາ Expert ຈຳນວນໜ້ອຍ (ປົກກະຕິ 2〜4 ອັນ), ແລະ Expert ທີ່ບໍ່ໄດ້ຖືກເລືອກຈະຂ້າມຂັ້ນຕອນການຄຳນວນ. ຢ່າງໃດກໍຕາມ, Sparse Model ບໍ່ໄດ້ຈຳກັດຢູ່ພຽງ MoE ເທົ່ານັ້ນ. "Non-structured Sparsity" ທີ່ເຮັດໃຫ້ Weight ສ່ວນໃຫຍ່ເປັນສູນ, ຫຼືວິທີການທີ່ປິດການໃຊ້ງານ Attention Head ສະເພາະຢ່າງ Dynamic ກໍຈັດຢູ່ໃນໝວດໝູ່ຂອງ Sparse Model ເຊັ່ນກັນ. MoE ເປັນພຽງຮູບແບບໜຶ່ງທີ່ໄດ້ຮັບການນຳໃຊ້ຕົວຈິງຫຼາຍທີ່ສຸດໃນບັນດານັ້ນ. ## ເກນການເລືອກລະຫວ່າງ Dense Model ຂໍ້ດີຂອງ Sparse Model ຊັດເຈນ, ຄືສາມາດໃຫ້ Model ມີ "ຄວາມຮູ້" ຫຼາຍຂຶ້ນດ້ວຍຕົ້ນທຶນການ Inference ທີ່ເທົ່າກັນ. Mixtral 8x7B ມີ Parameter ທັງໝົດ 46.7B ແຕ່ Active Parameter ມີພຽງ 12.9B, ຕົ້ນທຶນການ Inference ທຽບເທົ່າ Dense Model ລະດັບ 13B ໃນຂະນະທີ່ປະສິດທິພາບໃກ້ຄຽງກັບລະດັບ 70B. ໃນທາງກົງກັນຂ້າມ, ກໍຍັງມີສິ່ງທ້າທາຍ. ການອອກແບບ Load Balancing ລະຫວ່າງ Expert ເປັນເລື່ອງຍາກ, ແລະຖ້າ Input ໄຫຼໄປລວມຢູ່ທີ່ Expert ໃດໜຶ່ງ ຜົນປະໂຫຍດຂອງ Sparsity ກໍຈະຫຼຸດລົງ. ນອກຈາກນີ້, GPU Memory ຍັງຕ້ອງໂຫຼດ Expert ທັງໝົດ, ດັ່ງນັ້ນປະສິດທິພາບດ້ານ Memory ຈຶ່ງບໍ່ງ່າຍດາຍເທົ່າ Dense Model.


Dense Model (ໂມເດລທີ່ເຊື່ອມໂຍງແໜ້ນໜາ) ແມ່ນສະຖາປັດຕະຍະກຳ Neural Network ທີ່ໃຊ້ພາລາມິເຕີທັງໝົດຂອງໂມເດລໃນການຄຳນວນໃນຂັ້ນຕອນການອະນຸມານ. ໃນຂະນະທີ່ MoE (Mixture of Experts) ເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງ Expert ເທົ່ານັ້ນ, Dense Model ນັ້ນ weights ທັງໝົດຈະມີສ່ວນຮ່ວມໃນການຄຳນວນສະເໝີ ໂດຍບໍ່ຂຶ້ນກັບ input.

MoE (Mixture of Experts) ແມ່ນສະຖາປັດຕະຍະກຳທີ່ມີ subnetwork "expert" ຫຼາຍອັນຢູ່ພາຍໃນໂມເດລ, ໂດຍເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງມັນໃນແຕ່ລະ input, ເພື່ອເພີ່ມຈຳນວນ parameter ທັງໝົດໃນຂະນະທີ່ຫຼຸດຕົ້ນທຶນໃນການ inference.

ໂອເພັນເວດໂມເດລ (Open-weight model) ແມ່ນໂມເດລພາສາທີ່ມີການເຜີຍແຜ່ນ້ຳໜັກ (parameters) ຂອງໂມເດລທີ່ຜ່ານການຝຶກສອນແລ້ວ ໂດຍສາມາດດາວໂຫຼດແລະນຳໃຊ້ໄດ້ຢ່າງເສລີສຳລັບການ inference ແລະ Fine-tuning.
