MoE (Mixture of Experts)

MoE (Mixture of Experts)

MoE (Mixture of Experts) ແມ່ນສະຖາປັດຕະຍະກຳທີ່ມີ subnetwork "expert" ຫຼາຍອັນຢູ່ພາຍໃນໂມເດລ, ໂດຍເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງມັນໃນແຕ່ລະ input, ເພື່ອເພີ່ມຈຳນວນ parameter ທັງໝົດໃນຂະນະທີ່ຫຼຸດຕົ້ນທຶນໃນການ inference.

ໄວເພາະບໍ່ໃຊ້ທັງໝົດ

ເປັນຫຍັງໂມເດລຂະໜາດໃຫຍ່ຢ່າງ GPT-4 ຫຼື Llama 4 ຈຶ່ງສາມາດ inference ໄດ້ດ້ວຍຄວາມໄວທີ່ຍອມຮັບໄດ້ໃນທາງປະຕິບັດ. ຄຳຕອບໜຶ່ງຄືສະຖາປັດຕະຍະກຳ MoE.

ໃນໂມເດລ Transformer ທົ່ວໄປ (Dense model) ນັ້ນ, token ທີ່ປ້ອນເຂົ້າຈະຜ່ານ parameter ທັງໝົດ. ສຳລັບໂມເດລທີ່ມີ 100B parameter, ທຸກຄັ້ງທີ່ຄຳນວນຈະໃຊ້ weight ທັງ 100B ຕົວ. ໃນ MoE ນັ້ນ, ເຖິງແມ່ນວ່າໂມເດລທັງໝົດຈະມີ 2 ລ້ານລ້ານ parameter, ແຕ່ໃນການ inference ໜຶ່ງຄັ້ງຈະໃຊ້ຈິງໆພຽງປະມານ 170B ເທົ່ານັ້ນ — expert ທີ່ເຫຼືອຈະຖືກ skip ໄປໃນຖານະ "ບໍ່ແມ່ນຄິວຂອງຕົນໃນຄັ້ງນີ້".

ສິ່ງທີ່ຕັດສິນວ່າຈະໃຊ້ expert ໃດແມ່ນ "gating network" (router). ມັນຈະເບິ່ງລັກສະນະຂອງ token ທີ່ປ້ອນເຂົ້າ ແລ້ວເລືອກ expert ທີ່ເໝາະສົມທີ່ສຸດ 2 ຫາ 4 ຕົວ. ສາມາດເຂົ້າໃຈໄດ້ວ່າ ຖ້າເປັນໂຈດຄະນິດສາດກໍຈະເລືອກ expert ສາຍ logic, ຖ້າເປັນວຽກແປພາສາກໍຈະເລືອກ expert ສາຍພາສາ, ເປັນຕົ້ນ.

ໂມເດລທີ່ໃຊ້ຈິງ

Llama 4 ຂອງ Meta ໄດ້ນຳໃຊ້ສະຖາປັດຕະຍະກຳນີ້ໃນ Scout (17B active / 109B total) ແລະ Maverick (17B active / 400B total). ຊຸດ Gemini ຂອງ Google ກໍຖືກລາຍງານວ່າໃຊ້ MoE ເປັນພື້ນຖານ. Mixtral 8x7B ຂອງ Mistral ມີໂຄງສ້າງທີ່ລວມ expert ຂະໜາດ 7B parameter ຈຳນວນ 8 ຕົວເຂົ້າດ້ວຍກັນ ແລະໃຊ້ພຽງ 2 ຕົວໃນເວລາ inference.

ສິ່ງທີ່ມີຮ່ວມກັນຄື "active parameter ໃນເວລາ inference ໜ້ອຍກວ່າ parameter ທັງໝົດຢ່າງຫຼວງຫຼາຍ". ດ້ວຍວິທີນີ້ຈຶ່ງສາມາດຮັກສາຄວາມສາມາດໃນການເກັບຄວາມຮູ້ຂອງໂມເດລໄວ້ ໃນຂະນະທີ່ຄຸ້ມຄ່າຄ່າໃຊ້ຈ່າຍ ແລະຄວາມໄວໃນການ inference ໃຫ້ຢູ່ໃນລະດັບທີ່ເປັນໄປໄດ້ຈິງ.

ການໃຊ້ງານຕ່າງກັນກັບ Dense model

Dense model ທີ່ໃຊ້ parameter ທັງໝົດນັ້ນ ໃນລະດັບຂະໜາດນ້ອຍຫາກາງຈະງ່າຍ ແລະຈັດການໄດ້ສະດວກ. Fine-tuning ກໍສາມາດເຮັດໄດ້ຕົງໄປຕົງມາ. MoE ແມ່ນສະຖາປັດຕະຍະກຳທີ່ສະແດງຄວາມສາມາດຢ່າງເຕັມທີ່ໃນໂມເດລຂະໜາດໃຫຍ່, ແລະສຳລັບໂມເດລທີ່ຕ່ຳກວ່າຫຼາຍສິບ B ກໍອາດມີກໍລະນີທີ່ overhead ບໍ່ຄຸ້ມຄ່າ.

ນອກຈາກນັ້ນ, ການ Fine-tuning ໂມເດລ MoE ຕ້ອງລະວັງບໍ່ໃຫ້ສົ່ງຜົນກະທົບຕໍ່ expert ທັງໝົດ, ແລະຍັງຕ້ອງການຄວາມຊ່ຽວຊານໃນການປະສົມປະສານກັບວິທີ PEFT ເຊັ່ນ LoRA ອີກດ້ວຍ.