Dense Model(ໂມເດລທີ່ມີການເຊື່ອມຕໍ່ຢ່າງໜາແໜ້ນ)

Dense Model(ໂມເດລທີ່ມີການເຊື່ອມຕໍ່ຢ່າງໜາແໜ້ນ)

Dense Model (ໂມເດລທີ່ເຊື່ອມໂຍງແໜ້ນໜາ) ແມ່ນສະຖາປັດຕະຍະກຳ Neural Network ທີ່ໃຊ້ພາລາມິເຕີທັງໝົດຂອງໂມເດລໃນການຄຳນວນໃນຂັ້ນຕອນການອະນຸມານ. ໃນຂະນະທີ່ MoE (Mixture of Experts) ເປີດໃຊ້ງານສະເພາະບາງສ່ວນຂອງ Expert ເທົ່ານັ້ນ, Dense Model ນັ້ນ weights ທັງໝົດຈະມີສ່ວນຮ່ວມໃນການຄຳນວນສະເໝີ ໂດຍບໍ່ຂຶ້ນກັບ input.

ເປັນຫຍັງຈຶ່ງເອີ້ນວ່າ "Dense"

ໃນໂລກຂອງ neural network ແຕ່ດັ້ງເດີມ ມີທຳນຽມເອີ້ນ fully connected layer ວ່າ dense layer. ຊື່ເອີ້ນ Dense Model ສະແດງໃຫ້ເຫັນຢ່າງກົງໄປກົງມາເຖິງລັກສະນະໂຄງສ້າງທີ່ວ່າ ໂມເດລທັງໝົດປະກອບດ້ວຍ "ການເຊື່ອມຕໍ່ທີ່ບໍ່ມີຊ່ອງຫວ່າງ" ນີ້ ນັ້ນຄືທຸກ parameter ຈະເຄື່ອນໄຫວໃນທຸກຄັ້ງທີ່ມີການ inference.

ສ່ວນຄຳທີ່ມີຄວາມໝາຍກົງກັນຂ້າມທີ່ປາກົດຂຶ້ນມາຄື MoE (Mixture of Experts) architecture. ໃນ MoE ກົນໄກ routing ຈະຄັດເລືອກສະເພາະ expert ຈຳນວນໜ້ອຍສຳລັບແຕ່ລະ input token ແລ້ວປ່ອຍໃຫ້ສ່ວນທີ່ເຫຼືອຢູ່ໃນສະຖານະພັກ. ດ້ວຍເຫດນີ້ ເຖິງແມ່ນຈຳນວນ parameter ທັງໝົດຈະເທົ່າກັນ ປະລິມານການຄຳນວນ (FLOPs) ໃນເວລາ inference ກໍຫຼຸດລົງຢ່າງຫຼວງຫຼາຍ. ທີ່ Mixtral 8x7B ອະທິບາຍວ່າ "ມີ parameter 46.7B ແຕ່ active parameter ມີພຽງ 12.9B" ກໍເປັນຍ້ອນກົນໄກນີ້.

ຈຸດແຂງ ແລະ ຂໍ້ຈຳກັດຂອງ Dense Model

ຂໍ້ດີທີ່ໃຫຍ່ທີ່ສຸດຂອງ Dense Model ຄືຄວາມງ່າຍດາຍໃນການອອກແບບ. ບໍ່ຈຳເປັນຕ້ອງກັງວົນກ່ຽວກັບຄວາມບໍ່ສົມດຸນຂອງ routing ຫຼືຄວາມລຳອຽງຂອງ load ລະຫວ່າງ expert (load balancing) ຈຶ່ງເຮັດໃຫ້ຄວາມໝັ້ນຄົງໃນການຝຶກສອນສູງ. ທີ່ໂມເດລຫຼັກໆ ເຊັ່ນ Llama 3 series ແລະ Claude ຍັງສືບຕໍ່ໃຊ້ Dense architecture ກໍຍ້ອນຄວາມໝັ້ນຄົງນີ້ມີຄວາມໝາຍສຳຄັນຫຼາຍໃນການຝຶກສອນຂະໜາດໃຫຍ່.

ໃນທາງກົງກັນຂ້າມ ຈຸດທີ່ຫຼີກລ່ຽງບໍ່ໄດ້ຄືຈຳນວນ parameter ສົ່ງຜົນໂດຍກົງຕໍ່ຕົ້ນທຶນການ inference. Dense Model ທີ່ມີ 70B parameter ຈະອ່ານ ແລະ ຄຳນວນ weight ທັງ 70B ໃນທຸກຄັ້ງທີ່ inference. ຫາກສາມາດບັນລຸຄຸນນະພາບທຽບເທົ່າດ້ວຍ MoE ໄດ້ ຕົ້ນທຶນການ inference ອາດຫຼຸດລົງໄດ້ຫຼາຍເທົ່າ.

ເກນການຕັດສິນໃຈໃນການປະຕິບັດຕົວຈິງ

ໃນສະຖານະການທີ່ຕ້ອງຄັດເລືອກໂມເດລ ການຕັດສິນໃຈໂດຍອີງໃສ່ຄວາມເໝາະສົມກັບ workload ຈະໃຊ້ງານໄດ້ຈິງກວ່າການຄິດໃນຮູບແບບ Dense ທຽບກັບ MoE.

ສຳລັບການສົນທະນາ real-time ທີ່ latency ເຂັ້ມງວດ ຫຼືວຽກງານທີ່ຮູບແບບ input/output ຫຼາກຫຼາຍ ແລະ ຄາດເດົາຄວາມລຳອຽງໄປຫາ expert ໃດໜຶ່ງໄດ້ຍາກ ຕົ້ນທຶນການຄຳນວນທີ່ຄາດເດົາໄດ້ຂອງ Dense Model ຈະງ່າຍຕໍ່ການດຳເນີນງານກວ່າ. ໃນທາງກົງກັນຂ້າມ ໃນກໍລະນີທີ່ຕ້ອງປະມວນຜົນຂໍ້ຄວາມຈຳນວນຫຼວງຫຼາຍດ້ວຍ batch inference ຫຼືສະຖານະການທີ່ໃຫ້ຄວາມສຳຄັນກັບ throughput ປະສິດທິພາບການຄຳນວນຂອງ MoE ຈະສ່ອງແສງ.

ຈາກປະສົບການຂອງຜູ້ຂຽນ ສິ່ງທີ່ສົ່ງຜົນກະທົບຫຼາຍທີ່ສຸດໃນເວລາສ່ຽງໂມເດລໃນສະພາບແວດລ້ອມ production ບໍ່ແມ່ນ "ຈຳນວນ parameter ເອງ" ແຕ່ເປັນ "ວິທີທີ່ໂມເດລໂຫຼດລົງໃນ GPU memory". Dense 70B ຕ້ອງໃຊ້ A100 80GB ×2 ຈຶ່ງຈະພໍດີ ໃນຂະນະທີ່ MoE ທີ່ມີ active parameter 13B ສາມາດໃຊ້ງານໄດ້ດ້ວຍ 1 ໃບ ຄວາມແຕກຕ່າງນີ້ຄືສິ່ງທີ່ກຳນົດຕົ້ນທຶນ infrastructure.