MoE (Mixture of Experts) ແມ່ນສະຖາປັດຕະຍະກຳທີ່ມີ subnetwork "expert" ຫຼາຍອັນຢູ່ພາຍໃນໂມເດລ, ໂດຍເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງມັນໃນແຕ່ລະ input, ເພື່ອເພີ່ມຈຳນວນ parameter ທັງໝົດໃນຂະນະທີ່ຫຼຸດຕົ້ນທຶນໃນການ inference.
ເປັນຫຍັງໂມເດລຂະໜາດໃຫຍ່ຢ່າງ GPT-4 ຫຼື Llama 4 ຈຶ່ງສາມາດ inference ໄດ້ດ້ວຍຄວາມໄວທີ່ຍອມຮັບໄດ້ໃນທາງປະຕິບັດ. ຄຳຕອບໜຶ່ງຄືສະຖາປັດຕະຍະກຳ MoE.
ໃນໂມເດລ Transformer ທົ່ວໄປ (Dense model) ນັ້ນ, token ທີ່ປ້ອນເຂົ້າຈະຜ່ານ parameter ທັງໝົດ. ສຳລັບໂມເດລທີ່ມີ 100B parameter, ທຸກຄັ້ງທີ່ຄຳນວນຈະໃຊ້ weight ທັງ 100B ຕົວ. ໃນ MoE ນັ້ນ, ເຖິງແມ່ນວ່າໂມເດລທັງໝົດຈະມີ 2 ລ້ານລ້ານ parameter, ແຕ່ໃນການ inference ໜຶ່ງຄັ້ງຈະໃຊ້ຈິງໆພຽງປະມານ 170B ເທົ່ານັ້ນ — expert ທີ່ເຫຼືອຈະຖືກ skip ໄປໃນຖານະ "ບໍ່ແມ່ນຄິວຂອງຕົນໃນຄັ້ງນີ້".
ສິ່ງທີ່ຕັດສິນວ່າຈະໃຊ້ expert ໃດແມ່ນ "gating network" (router). ມັນຈະເບິ່ງລັກສະນະຂອງ token ທີ່ປ້ອນເຂົ້າ ແລ້ວເລືອກ expert ທີ່ເໝາະສົມທີ່ສຸດ 2 ຫາ 4 ຕົວ. ສາມາດເຂົ້າໃຈໄດ້ວ່າ ຖ້າເປັນໂຈດຄະນິດສາດກໍຈະເລືອກ expert ສາຍ logic, ຖ້າເປັນວຽກແປພາສາກໍຈະເລືອກ expert ສາຍພາສາ, ເປັນຕົ້ນ.
Llama 4 ຂອງ Meta ໄດ້ນຳໃຊ້ສະຖາປັດຕະຍະກຳນີ້ໃນ Scout (17B active / 109B total) ແລະ Maverick (17B active / 400B total). ຊຸດ Gemini ຂອງ Google ກໍຖືກລາຍງານວ່າໃຊ້ MoE ເປັນພື້ນຖານ. Mixtral 8x7B ຂອງ Mistral ມີໂຄງສ້າງທີ່ລວມ expert ຂະໜາດ 7B parameter ຈຳນວນ 8 ຕົວເຂົ້າດ້ວຍກັນ ແລະໃຊ້ພຽງ 2 ຕົວໃນເວລາ inference.
ສິ່ງທີ່ມີຮ່ວມກັນຄື "active parameter ໃນເວລາ inference ໜ້ອຍກວ່າ parameter ທັງໝົດຢ່າງຫຼວງຫຼາຍ". ດ້ວຍວິທີນີ້ຈຶ່ງສາມາດຮັກສາຄວາມສາມາດໃນການເກັບຄວາມຮູ້ຂອງໂມເດລໄວ້ ໃນຂະນະທີ່ຄຸ້ມຄ່າຄ່າໃຊ້ຈ່າຍ ແລະຄວາມໄວໃນການ inference ໃຫ້ຢູ່ໃນລະດັບທີ່ເປັນໄປໄດ້ຈິງ.
Dense model ທີ່ໃຊ້ parameter ທັງໝົດນັ້ນ ໃນລະດັບຂະໜາດນ້ອຍຫາກາງຈະງ່າຍ ແລະຈັດການໄດ້ສະດວກ. Fine-tuning ກໍສາມາດເຮັດໄດ້ຕົງໄປຕົງມາ. MoE ແມ່ນສະຖາປັດຕະຍະກຳທີ່ສະແດງຄວາມສາມາດຢ່າງເຕັມທີ່ໃນໂມເດລຂະໜາດໃຫຍ່, ແລະສຳລັບໂມເດລທີ່ຕ່ຳກວ່າຫຼາຍສິບ B ກໍອາດມີກໍລະນີທີ່ overhead ບໍ່ຄຸ້ມຄ່າ.
ນອກຈາກນັ້ນ, ການ Fine-tuning ໂມເດລ MoE ຕ້ອງລະວັງບໍ່ໃຫ້ສົ່ງຜົນກະທົບຕໍ່ expert ທັງໝົດ, ແລະຍັງຕ້ອງການຄວາມຊ່ຽວຊານໃນການປະສົມປະສານກັບວິທີ PEFT ເຊັ່ນ LoRA ອີກດ້ວຍ.


Dense Model (ໂມເດລທີ່ເຊື່ອມໂຍງແໜ້ນໜາ) ແມ່ນສະຖາປັດຕະຍະກຳ Neural Network ທີ່ໃຊ້ພາລາມິເຕີທັງໝົດຂອງໂມເດລໃນການຄຳນວນໃນຂັ້ນຕອນການອະນຸມານ. ໃນຂະນະທີ່ MoE (Mixture of Experts) ເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງ Expert ເທົ່ານັ້ນ, Dense Model ນັ້ນ weights ທັງໝົດຈະມີສ່ວນຮ່ວມໃນການຄຳນວນສະເໝີ ໂດຍບໍ່ຂຶ້ນກັບ input.

Sparse Model (ສະປາດໂມເດວ) ແມ່ນຊື່ເອີ້ນລວມຂອງສະຖາປັດຕະຍະກຳ neural network ທີ່ເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງ parameter ຂອງໂມເດວ ແທນທີ່ຈະໃຊ້ທຸກ parameter ໃນເວລາ inference. ຕົວຢ່າງທີ່ເປັນຕົວແທນຄື MoE (Mixture of Experts) ເຊິ່ງໃຊ້ກົນລະຍຸດການ scaling ທີ່ແຕກຕ່າງຈາກ Dense Model ໂດຍການເພີ່ມຈຳນວນ parameter ທັງໝົດ ໃນຂະນະທີ່ຍັງຄວບຄຸມຕົ້ນທຶນຂອງ inference ໄວ້ໄດ້.


ໂອເພັນເວດໂມເດລ (Open-weight model) ແມ່ນໂມເດລພາສາທີ່ມີການເຜີຍແຜ່ນ້ຳໜັກ (parameters) ຂອງໂມເດລທີ່ຜ່ານການຝຶກສອນແລ້ວ ໂດຍສາມາດດາວໂຫຼດແລະນຳໃຊ້ໄດ້ຢ່າງເສລີສຳລັບການ inference ແລະ Fine-tuning.