Dense Model (ໂມເດລທີ່ເຊື່ອມໂຍງແໜ້ນໜາ) ແມ່ນສະຖາປັດຕະຍະກຳ Neural Network ທີ່ໃຊ້ພາລາມິເຕີທັງໝົດຂອງໂມເດລໃນການຄຳນວນໃນຂັ້ນຕອນການອະນຸມານ. ໃນຂະນະທີ່ MoE (Mixture of Experts) ເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງ Expert ເທົ່ານັ້ນ, Dense Model ນັ້ນ weights ທັງໝົດຈະມີສ່ວນຮ່ວມໃນການຄຳນວນສະເໝີ ໂດຍບໍ່ຂຶ້ນກັບ input.
## ເປັນຫຍັງຈຶ່ງເອີ້ນວ່າ "Dense" ໃນໂລກຂອງ neural network ແຕ່ດັ້ງເດີມ ມີທຳນຽມເອີ້ນ fully connected layer ວ່າ dense layer. ຊື່ເອີ້ນ Dense Model ສະແດງໃຫ້ເຫັນຢ່າງກົງໄປກົງມາເຖິງລັກສະນະໂຄງສ້າງທີ່ວ່າ ໂມເດລທັງໝົດປະກອບດ້ວຍ "ການເຊື່ອມຕໍ່ທີ່ບໍ່ມີຊ່ອງຫວ່າງ" ນີ້ ນັ້ນຄືທຸກ parameter ຈະເຄື່ອນໄຫວໃນທຸກຄັ້ງທີ່ມີການ inference. ສ່ວນຄຳທີ່ມີຄວາມໝາຍກົງກັນຂ້າມທີ່ປາກົດຂຶ້ນມາຄື MoE (Mixture of Experts) architecture. ໃນ MoE ກົນໄກ routing ຈະຄັດເລືອກສະເພາະ expert ຈຳນວນໜ້ອຍສຳລັບແຕ່ລະ input token ແລ້ວປ່ອຍໃຫ້ສ່ວນທີ່ເຫຼືອຢູ່ໃນສະຖານະພັກ. ດ້ວຍເຫດນີ້ ເຖິງແມ່ນຈຳນວນ parameter ທັງໝົດຈະເທົ່າກັນ ປະລິມານການຄຳນວນ (FLOPs) ໃນເວລາ inference ກໍຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ. ທີ່ Mixtral 8x7B ອະທິບາຍວ່າ "ມີ parameter 46.7B ແຕ່ active parameter ມີພຽງ 12.9B" ກໍເປັນຍ້ອນກົນໄກນີ້. ## ຈຸດແຂງ ແລະ ຂໍ້ຈຳກັດຂອງ Dense Model ຂໍ້ດີທີ່ໃຫຍ່ທີ່ສຸດຂອງ Dense Model ຄືຄວາມງ່າຍດາຍໃນການອອກແບບ. ບໍ່ຈຳເປັນຕ້ອງກັງວົນກ່ຽວກັບຄວາມບໍ່ສົມດຸນຂອງ routing ຫຼືຄວາມລຳອຽງຂອງ load ລະຫວ່າງ expert (load balancing) ຈຶ່ງເຮັດໃຫ້ຄວາມໝັ້ນຄົງໃນການຝຶກສອນສູງ. ທີ່ໂມເດລຫຼັກໆ ເຊັ່ນ Llama 3 series ແລະ Claude ຍັງສືບຕໍ່ໃຊ້ Dense architecture ກໍຍ້ອນຄວາມໝັ້ນຄົງນີ້ມີຄວາມໝາຍສຳຄັນຫຼາຍໃນການຝຶກສອນຂະໜາດໃຫຍ່. ໃນທາງກົງກັນຂ້າມ ຈຸດທີ່ຫຼີກລ່ຽງບໍ່ໄດ້ຄືຈຳນວນ parameter ສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການ inference. Dense Model ທີ່ມີ 70B parameter ຈະອ່ານ ແລະ ຄຳນວນ weight ທັງ 70B ໃນທຸກຄັ້ງທີ່ inference. ຫາກສາມາດບັນລຸຄຸນນະພາບທຽບເທົ່າດ້ວຍ MoE ໄດ້ ຕົ້ນທຶນການ inference ອາດຫຼຸດລົງໄດ້ຫຼາຍເທົ່າ. ## ເກນການຕັດສິນໃຈໃນການປະຕິບັດຕົວຈິງ ໃນສະຖານະການທີ່ຕ້ອງຄັດເລືອກໂມເດລ ການຕັດສິນໃຈໂດຍອີງໃສ່ຄວາມເໝາະສົມກັບ workload ຈະໃຊ້ງານໄດ້ຈິງກວ່າການຄິດໃນຮູບແບບ Dense ທຽບກັບ MoE. ສຳລັບການສົນທະນາ real-time ທີ່ latency ເຂັ້ມງວດ ຫຼືວຽກງານທີ່ຮູບແບບ input/output ຫຼາກຫຼາຍ ແລະ ຄາດເດົາຄວາມລຳອຽງໄປຫາ expert ໃດໜຶ່ງໄດ້ຍາກ ຕົ້ນທຶນການຄຳນວນທີ່ຄາດເດົາໄດ້ຂອງ Dense Model ຈະງ່າຍຕໍ່ການດຳເນີນງານກວ່າ. ໃນທາງກົງກັນຂ້າມ ໃນກໍລະນີທີ່ຕ້ອງປະມວນຜົນຂໍ້ຄວາມຈຳນວນຫຼວງຫຼາຍດ້ວຍ batch inference ຫຼືສະຖານະການທີ່ໃຫ້ຄວາມສຳຄັນກັບ throughput ປະສິດທິພາບການຄຳນວນຂອງ MoE ຈະສ່ອງແສງ. ຈາກປະສົບການຂອງຜູ້ຂຽນ ສິ່ງທີ່ສົ່ງຜົນກະທົບຫຼາຍທີ່ສຸດໃນເວລາສ່ຽງໂມເດລໃນສະພາບແວດລ້ອມ production ບໍ່ແມ່ນ "ຈຳນວນ parameter ເອງ" ແຕ່ເປັນ "ວິທີທີ່ໂມເດລໂຫຼດລົງໃນ GPU memory". Dense 70B ຕ້ອງໃຊ້ A100 80GB ×2 ຈຶ່ງຈະພໍດີ ໃນຂະນະທີ່ MoE ທີ່ມີ active parameter 13B ສາມາດໃຊ້ງານໄດ້ດ້ວຍ 1 ໃບ ຄວາມແຕກຕ່າງນີ້ຄືສິ່ງທີ່ກຳນົດຕົ້ນທຶນ infrastructure.

Sparse Model (ສະປາດໂມເດວ) ແມ່ນຊື່ເອີ້ນລວມຂອງສະຖາປັດຕະຍະກຳ neural network ທີ່ເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງ parameter ຂອງໂມເດວ ແທນທີ່ຈະໃຊ້ທຸກ parameter ໃນເວລາ inference. ຕົວຢ່າງທີ່ເປັນຕົວແທນຄື MoE (Mixture of Experts) ເຊິ່ງໃຊ້ກົນລະຍຸດການ scaling ທີ່ແຕກຕ່າງຈາກ Dense Model ໂດຍການເພີ່ມຈຳນວນ parameter ທັງໝົດ ໃນຂະນະທີ່ຍັງຄວບຄຸມຕົ້ນທຶນຂອງ inference ໄວ້ໄດ້.

MoE (Mixture of Experts) ແມ່ນສະຖາປັດຕະຍະກຳທີ່ມີ subnetwork "expert" ຫຼາຍອັນຢູ່ພາຍໃນໂມເດລ, ໂດຍເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງມັນໃນແຕ່ລະ input, ເພື່ອເພີ່ມຈຳນວນ parameter ທັງໝົດໃນຂະນະທີ່ຫຼຸດຕົ້ນທຶນໃນການ inference.

ໂອເພັນເວດໂມເດລ (Open-weight model) ແມ່ນໂມເດລພາສາທີ່ມີການເຜີຍແຜ່ນ້ຳໜັກ (parameters) ຂອງໂມເດລທີ່ຜ່ານການຝຶກສອນແລ້ວ ໂດຍສາມາດດາວໂຫຼດແລະນຳໃຊ້ໄດ້ຢ່າງເສລີສຳລັບການ inference ແລະ Fine-tuning.



PEFT (Parameter-Efficient Fine-Tuning) ຄືຫຍັງ? ເທັກໂນໂລຊີທີ່ຫຼຸດຕົ້ນທຶນການປັບແຕ່ງ AI Model ລົງ 90%