Liquid Neural Networks ແມ່ນຫຍັງ? AI ລຸ້ນໃໝ່ທີ່ປັບປ່ຽນການເຮັດວຽກແບບ Real-time

Liquid Neural Networks ແມ່ນຫຍັງ? AI ລຸ້ນໃໝ່ທີ່ປັບປ່ຽນການເຮັດວຽກແບບ Real-time

Liquid Neural Networks (LNN) ແມ່ນຫຍັງ?

Liquid Neural Networks (LNN) ແມ່ນເຄືອຂ່າຍປະສາດທຽມແບບຕໍ່ເນື່ອງຕາມເວລາ (Continuous-time neural network) ເຊິ່ງຄ່າຄົງທີ່ຂອງເວລາ (time-constant) ຂອງແຕ່ລະນິວຣອນຈະປ່ຽນແປງໄປຕາມຂໍ້ມູນຂາເຂົ້າໃນລະຫວ່າງການປະມວນຜົນ (Inference), ເຮັດໃຫ້ພຶດຕິກຳຂອງເຄືອຂ່າຍມີການປັບຕົວແບບເຄື່ອນໄຫວ. ມັນບໍ່ແມ່ນເທັກໂນໂລຢີທີ່ໃຊ້ສ້າງຄວາມຮູ້ຄືກັບແບບຈຳລອງພາສາຂະໜາດໃຫຍ່ (Large Language Models), ແຕ່ມີຈຸດເດັ່ນໃນການປະມວນຜົນຂໍ້ມູນອະນຸກົມເວລາ (Time-series data) ແລະ ວຽກງານການຄວບຄຸມຢ່າງມີປະສິດທິພາບດ້ວຍຊັບພະຍາກອນຄຳນວນທີ່ໜ້ອຍ. ກ່ອນອື່ນໝົດ, ພວກເຮົາຈະມາຈັດລະບຽບກ່ຽວກັບຄຳນິຍາມ ແລະ ຄວາມແຕກຕ່າງພື້ນຖານຈາກແບບຈຳລອງແບບດັ້ງເດີມ.

ຄໍານິຍາມຂອງ LNN ແລະທີ່ມາຂອງຊື່

LNN ແມ່ນໂຄງຂ່າຍປະສາດທຽມ (Neural Network) ທີ່ມີຈຸດເດັ່ນຢູ່ທີ່ "ຄ່າຄົງທີ່ຂອງເວລາ" (Time constant) ເຊິ່ງເປັນຕົວການກຳນົດຄວາມໄວໃນການຕອບສະໜອງຂອງແຕ່ລະນິວຣອນ ບໍ່ແມ່ນຄ່າທີ່ຄົງທີ່ ແຕ່ຈະມີການປ່ຽນແປງຢ່າງຕໍ່ເນື່ອງຕາມຂໍ້ມູນທີ່ປ້ອນເຂົ້າ. ການທີ່ຄ່າຄົງທີ່ຂອງເວລານີ້ປ່ຽນແປງຢ່າງລື່ນໄຫຼຄືກັບນ້ຳ ຈຶ່ງເປັນທີ່ມາຂອງຊື່ "Liquid" (ຂອງແຫຼວ).

ຕົ້ນແບບທາງດ້ານເຕັກນິກແມ່ນ "Liquid Time-Constant Networks (LTC)" ເຊິ່ງສະເໜີໂດຍ Ramin Hasani, Mathias Lechner, ແລະ Daniela Rus ຈາກ MIT CSAIL (arXiv:2006.04439, AAAI 2021). ມັນໄດ້ຮັບແຮງບັນດານໃຈມາຈາກກົນໄກການເຮັດວຽກຂອງວົງຈອນປະສາດໃນແມ່ທ້ອງ C. elegans ທີ່ສາມາດປັບຕົວເຂົ້າກັບການປ່ຽນແປງຂອງສະພາບແວດລ້ອມໄດ້ຢ່າງແຂງແກ່ນດ້ວຍນິວຣອນພຽງແຕ່ບໍ່ເທົ່າໃດຮ້ອຍຕົວເທົ່ານັ້ນ, ແລະມີຄວາມໃໝ່ຢູ່ທີ່ການສະແດງອອກເຖິງໄດນາມິກຂອງລະບົບປະສາດໃນສິ່ງມີຊີວິດດ້ວຍສົມຜົນອະນຸພັນ.

ຫຼັງຈາກນັ້ນ, ເພື່ອເຮັດໃຫ້ການຮຽນຮູ້ໄວຂຶ້ນ ຈຶ່ງໄດ້ມີການສະເໜີແບບຈຳລອງ CfC (Closed-form Continuous-time) ເຊິ່ງເປັນການປະມານຜົນທາງຕົວເລກຂອງ ODE ໃຫ້ຢູ່ໃນຮູບແບບປິດ (Closed-form), ເຊິ່ງເປັນການຊຸກຍູ້ໃຫ້ LNN ຖືກນຳໄປໃຊ້ງານຈິງ. ເນື່ອງຈາກປະກອບດ້ວຍນິວຣອນຈຳນວນໜ້ອຍ ຈຶ່ງເຮັດໃຫ້ສາມາດຕິດຕາມບົດບາດຂອງແຕ່ລະນິວຣອນໄດ້ງ່າຍ ແລະ ຄວາມສາມາດໃນການອະທິບາຍທີ່ສູງກໍຖືເປັນຈຸດເດັ່ນອີກປະການໜຶ່ງ.

ຄວາມແຕກຕ່າງພື້ນຖານຈາກ Neural Network ແບບດັ້ງເດີມ

ເຄືອຂ່າຍປະສາດທຽມແບບດັ້ງເດີມ (ເຊັ່ນ: CNN ຫຼື LSTM) ເມື່ອການຮຽນຮູ້ສິ້ນສຸດລົງ, ນ້ຳໜັກ (Weights) ແລະ ການເຮັດວຽກຂອງເຄືອຂ່າຍຈະຖືກຄົງຄ່າໄວ້ ແລະ ໃນຂະນະທີ່ປະມວນຜົນການຄາດຄະເນ (Inference) ມັນຈະເຮັດການຄຳນວນແບບດຽວກັນຊ້ຳໆສະເໝີ. ສຳລັບ LNN ເຖິງແມ່ນວ່ານ້ຳໜັກທີ່ຜ່ານການຮຽນຮູ້ແລ້ວຈະຖືກຄົງຄ່າໄວ້ໃນຂະນະປະມວນຜົນການຄາດຄະເນຄືກັນ, ແຕ່ສິ່ງທີ່ແຕກຕ່າງກັນຢ່າງເດັດຂາດຄື ຄ່າເວລາຄົງທີ່ (Time constant) ທີ່ມີປະສິດທິຜົນຂອງແຕ່ລະນິວຣອນຈະປ່ຽນແປງໄປຕາມຂໍ້ມູນນຳເຂົ້າ ແລະ "ວິທີການເຮັດວຽກ" ຂອງເຄືອຂ່າຍຈະປ່ຽນແປງແບບ Real-time.

ມຸມມອງNN/RNN ແບບດັ້ງເດີມLNN
ນ້ຳໜັກຫຼັງການຮຽນຮູ້ຄົງທີ່ຄົງທີ່
ການເຮັດວຽກຂະນະປະມວນຜົນຄົງທີ່ສະເໝີປ່ຽນແປງແບບເຄື່ອນໄຫວຕາມຂໍ້ມູນນຳເຂົ້າ
ການຈັດການເວລາຂັ້ນຕອນແບບແຍກສ່ວນ (Discrete)ເວລາຕໍ່ເນື່ອງ (ODE)
ຄວາມທົນທານຕໍ່ຂໍ້ມູນນອກການແຈກແຈງມີແນວໂນ້ມຕ່ຳມີແນວໂນ້ມສູງ

ກ່າວຄື: ບໍ່ແມ່ນ "ການຮຽນຮູ້ຊ້ຳໃນຂະນະປະມວນຜົນການຄາດຄະເນ", ແຕ່ຄວນເຂົ້າໃຈວ່າວິທີການສົ່ງຜົນຂອງນ້ຳໜັກທີ່ຖືກຄົງຄ່າໄວ້ (Dynamics) ຈະປ່ຽນແປງຜ່ານຄ່າເວລາຄົງທີ່ນັ້ນເອງ.

ພື້ນຖານການຄົ້ນຄວ້າທີ່ເຮັດໃຫ້ເກີດ LNN

ພື້ນຖານການຄົ້ນຄວ້າຂອງ LNN ມີ 2 ທິດທາງ. ທິດທາງທີ 1 ແມ່ນການພັດທະນາວິທີການທີ່ "ເບິ່ງໂຄງຂ່າຍປະສາດ (Neural Network) ເປັນສົມຜົນອະນຸພັນຂອງເວລາຢ່າງຕໍ່ເນື່ອງ" ເຊິ່ງເປັນຕົວແທນໂດຍ Neural ODE (Chen et al., 2018). ທິດທາງທີ 2 ແມ່ນຄວາມພະຍາຍາມໃນການຮຽນຮູ້ຈາກລະບົບປະສາດຂອງສິ່ງມີຊີວິດ ເຊິ່ງມີແຮງຈູງໃຈໃນການຈຳລອງກົນໄກທີ່ເຮັດໃຫ້ແມ່ທ້ອງ (Nematode) ທີ່ມີຈຳນວນນິວຣອນພຽງແຕ່ປະມານ 300 ໂຕ ສາມາດສະແດງພຶດຕິກຳທີ່ຊັບຊ້ອນໄດ້ ໂດຍຜ່ານວິສະວະກຳ.

ທີມຄົ້ນຄວ້າຂອງ MIT CSAIL (Hasani, Lechner, Rus, Amini et al.) ໄດ້ຕັ້ງເປົ້າໝາຍໃນການບັນລຸຄວາມສາມາດໃນການສະແດງອອກ (Expressivity) ແລະ ຄວາມສາມາດໃນການອະທິບາຍ (Interpretability) ທີ່ສູງ ພ້ອມທັງຄວາມທົນທານຕໍ່ການປ່ຽນແປງຂອງສະພາບແວດລ້ອມ ໂດຍໃຊ້ຈຳນວນນິວຣອນທີ່ໜ້ອຍ. ແນວຄິດການອອກແບບທີ່ວ່າ "ນ້ອຍ, ທົນທານ ແລະ ອະທິບາຍໄດ້ງ່າຍ" ນີ້ ເຮັດໃຫ້ມັນມີຄວາມເໝາະສົມກັບ Edge AI ແລະ ການຄວບຄຸມແບບອັດຕະໂນມັດທີ່ຈະກ່າວເຖິງໃນພາຍຫຼັງ.

ເປັນຫຍັງ LNN ຈຶ່ງໄດ້ຮັບຄວາມສົນໃຈ?

ເຫດຜົນທີ່ LNN ໄດ້ຮັບຄວາມສົນໃຈສາມາດສະຫຼຸບໄດ້ 3 ປະການຄື: (1) ມີຄວາມສາມາດໃນການສະແດງອອກສູງດ້ວຍພາຣາມິເຕີທີ່ໜ້ອຍ, (2) ມີຄວາມທົນທານຕໍ່ສະຖານະການທີ່ບໍ່ໄດ້ພົບເຫັນໃນລະຫວ່າງການຮຽນຮູ້ (Out-of-distribution), ແລະ (3) ມີຄວາມເໝາະສົມກັບສະພາບແວດລ້ອມ Edge. ເຊິ່ງທັງໝົດນີ້ແມ່ນດ້ານກົງກັນຂ້າມຂອງບັນຫາທີ່ໂມເດວພາຣາມິເຕີແບບຄົງທີ່ໃນສະໄໝກ່ອນກຳລັງປະເຊີນຢູ່.

ຂໍ້ຈຳກັດ ແລະ ສິ່ງທ້າທາຍຂອງແບບຈຳລອງ Static Parameter

ແບບຈຳລອງພາຣາມິເຕີແບບຄົງທີ່ໃນຮູບແບບເດີມນັ້ນ ຖືກປັບໃຫ້ເໝາະສົມກັບການກະຈາຍຂອງຂໍ້ມູນໃນຂະນະທີ່ຝຶກສອນ (Training), ເຮັດໃຫ້ມັນອ່ອນແອຕໍ່ "ການປ່ຽນແປງຂອງການກະຈາຍຂໍ້ມູນ" (Distribution Shift) ເຊິ່ງເປັນສະພາວະທີ່ທ່າອ່ຽງຂອງຂໍ້ມູນໃນສະພາບແວດລ້ອມການໃຊ້ງານຈິງປ່ຽນແປງໄປ. ເມື່ອສະຖານະການປ່ຽນແປງໃນແຕ່ລະຄັ້ງ ຈຳເປັນຕ້ອງມີການຝຶກສອນໃໝ່ ຫຼື ການປັບແຕ່ງລະອຽດ (Fine-tuning), ເຊິ່ງເຮັດໃຫ້ຕົ້ນທຶນໃນການດຳເນີນງານ ເພີ່ມທະວີຂຶ້ນເລື້ອຍໆ.

ນອກຈາກນີ້, ຍັງມີທ່າອ່ຽງທີ່ຈະເພີ່ມຈຳນວນພາຣາມິເຕີເພື່ອຍົກລະດັບຄວາມສາມາດໃນການສະແດງຜົນ ເຮັດໃຫ້ແບບຈຳລອງມີຂະໜາດໃຫຍ່ຂຶ້ນ. ໃນວຽກງານທີ່ໄດນາມິກມີການປ່ຽນແປງຢູ່ຕະຫຼອດເວລາ ເຊັ່ນ: ສັນຍານເຊັນເຊີ ຫຼື ວັດຖຸຄວບຄຸມທີ່ປ່ຽນແປງໄປໃນ ແບບ Real-time, ການປະມານຄ່າຟັງຊັນແບບຄົງທີ່ອາດຈະບໍ່ສາມາດຕິດຕາມການປ່ຽນແປງໄດ້ທັນໃນບາງສະຖານະການ. LNN ໄດ້ລວມເອົາ "ການຕິດຕາມການປ່ຽນແປງ" ນີ້ເຂົ້າໄປໃນສະຖາປັດຕະຍະກຳ ໃນຮູບແບບຂອງການປ່ຽນແປງຄ່າຄົງທີ່ຂອງເວລາ (Time Constant) ແບບໄດນາມິກ.

ການປັບປຸງຄວາມແມ່ນຍຳໃນການອະນຸມານດ້ວຍ Time-constant ແບບເຄື່ອນໄຫວ

ດ້ວຍການປ່ຽນແປງຄ່າຄົງທີ່ຂອງເວລາ (Time constant) ຕາມການປ້ອນຂໍ້ມູນ, ເຄືອຂ່າຍຈຶ່ງສາມາດປັບ "ຄວາມໄວໃນການຕອບສະໜອງ" ໃຫ້ເໝາະສົມກັບແຕ່ລະການປ້ອນຂໍ້ມູນໄດ້. ສິ່ງນີ້ຊ່ວຍໃຫ້ການຄາດຄະເນຕາມລຳດັບເວລາ ແລະ ວຽກງານການຄວບຄຸມສາມາດໄດ້ຮັບຜົນລັດທີ່ລຽບງ່າຍ ແລະ ສະຖຽນກວ່າແບບຈຳລອງທີ່ຕາຍຕົວ.

ຕົວຢ່າງທີ່ໂດດເດັ່ນຄື ການຄົ້ນຄວ້າກ່ຽວກັບການບິນອັດຕະໂນມັດໂດຍ MIT (Science Robotics, 2023). ຕົວແທນການຄວບຄຸມໂດຣນທີ່ໄດ້ຮຽນຮູ້ໃນປ່າຊ່ວງລະດູຮ້ອນ ສາມາດນຳໄປໃຊ້ໃນສະຖານະການທີ່ບໍ່ເຄີຍພົບມາກ່ອນ ເຊັ່ນ: ໃນລະດູໜາວ ຫຼື ສະພາບແວດລ້ອມໃນຕົວເມືອງໄດ້ໂດຍກົງ ໂດຍບໍ່ຈຳເປັນຕ້ອງມີການປັບແຕ່ງ (Fine-tuning). ນອກຈາກນີ້ ຍັງມີລາຍງານວ່າ ມັນມີການບ່ຽງເບນຂອງເສັ້ນທາງ (Trajectory drift) ໜ້ອຍກວ່າແບບຈຳລອງແບບດັ້ງເດີມ ແລະ ມີຄວາມທົນທານຕໍ່ການບັງ ຫຼື ການໝູນວຽນທີ່ສູງກວ່າ.

ເຫດຜົນທີ່ເໝາະສົມກັບການອະນຸມານແບບ Edge AI

LNN ທີ່ເໝາະສົມກັບການປະມວນຜົນ Edge AI ກໍຍ້ອນວ່າຕົວແບບມີຂະໜາດກະທັດຮັດຫຼາຍ. ເນື່ອງຈາກມັນໃຊ້ຈຳນວນນິວຣອນໜ້ອຍໃນການເຮັດວຽກ, ຈຶ່ງໃຊ້ໜ່ວຍຄວາມຈຳ ແລະ ພະລັງງານການຄຳນວນໜ້ອຍ, ເຊິ່ງເໝາະສົມກັບການປະມວນຜົນແບບ On-device. Hasani ໄດ້ກ່າວວ່າ LNN ສາມາດ "ຂັບເຄື່ອນລົດໄດ້ເຖິງແມ່ນຈະຢູ່ເທິງ Raspberry Pi", ເຊິ່ງເປັນການສະແດງໃຫ້ເຫັນເຖິງຄວາມເປັນໄປໄດ້ໃນການນຳໄປໃຊ້ກັບອຸປະກອນຝັງຕົວ (Embedded devices).

ຍິ່ງໄປກວ່ານັ້ນ, ເນື່ອງຈາກມັນເປັນຕົວແບບເວລາຕໍ່ເນື່ອງ (Continuous-time model), ມັນຈຶ່ງສາມາດຈັດການກັບຂໍ້ມູນເຊັນເຊີທີ່ມີໄລຍະຫ່າງຂອງການເກັບຂໍ້ມູນບໍ່ສະໝໍ່າສະເໝີໄດ້ຢ່າງເປັນທຳມະຊາດ. ສຳລັບວຽກງານການຄວບຄຸມ ແລະ ການຕິດຕາມທີ່ຕ້ອງການການຕັດສິນໃຈແບບ Real-time ຢູ່ທີ່ຕົວອຸປະກອນໂດຍບໍ່ຕ້ອງສົ່ງຂໍ້ມູນໄປທີ່ Cloud, ຄວາມເບົາບາງ ແລະ ຄວາມທົນທານຂອງ LNN ຈະມີບົດບາດສຳຄັນ. ສຳລັບພາບລວມຂອງການປະມວນຜົນແບບ On-device, ກະລຸນາອ້າງອີງຈາກບົດຄວາມອະທິບາຍກ່ຽວກັບ Edge AI ຂອງພວກເຮົາ.

LNN ມີກົນໄກການເຮັດວຽກແນວໃດ?

ຈຸດສຳຄັນ ຫຼື ແກນຫຼັກ ຂອງກົນໄກ LNN ແມ່ນປະກອບດ້ວຍ 2 ສ່ວນຄື: "Liquid Time Constant" ແລະ "Continuous-time dynamics ທີ່ອີງໃສ່ Ordinary Differential Equations (ODE)". ໃນທີ່ນີ້, ພວກເຮົາຈະບໍ່ລົງເລິກໃນລາຍລະອຽດຂອງສູດຄະນິດສາດ, ແຕ່ຈະສະຫຼຸບການເຮັດວຽກຂອງມັນໃຫ້ເຂົ້າໃຈງ່າຍຂຶ້ນ.

ແນວຄວາມຄິດຂອງ Liquid Time-Constant

ຄ່າຄົງທີ່ຂອງເວລາ (Time constant) ແມ່ນພາຣາມິເຕີທີ່ກຳນົດວ່າ ນິວຣອນ (Neuron) ຈະຕອບສະໜອງຕໍ່ຂໍ້ມູນຂາເຂົ້າໄດ້ໄວ (ຫຼື ຊ້າ) ພຽງໃດ. ໃນໂມເດວທົ່ວໄປ ຄ່ານີ້ຈະຖືກກຳນົດໄວ້ຕາຍຕົວ, ແຕ່ໃນ LNN ຄ່າຄົງທີ່ຂອງເວລາທີ່ມີປະສິດທິຜົນຈະປ່ຽນແປງໄປຕາມຂໍ້ມູນຂາເຂົ້າ ແລະ ສະຖານະປັດຈຸບັນ.

ໂດຍສັງເຂບ, ມັນສາມາດປັບປ່ຽນ "ຈັງຫວະ" ການຕອບສະໜອງໃຫ້ເໝາະສົມກັບສະຖານະການໄດ້ ເຊັ່ນ: ຕອບສະໜອງຢ່າງວ່ອງໄວຕໍ່ຂໍ້ມູນຂາເຂົ້າທີ່ມີການປ່ຽນແປງໄວ ແລະ ຕິດຕາມຢ່າງຊ້າໆຕໍ່ຂໍ້ມູນຂາເຂົ້າທີ່ມີການປ່ຽນແປງແບບຄ່ອຍເປັນຄ່ອຍໄປ. ຄວາມສາມາດໃນການປ່ຽນແປງນີ້ເອງທີ່ຖືກສະແດງອອກຜ່ານຄຳວ່າ "ຂອງແຫຼວ (liquid)". ສິ່ງທີ່ສຳຄັນຄື ສິ່ງທີ່ປ່ຽນແປງນັ້ນແມ່ນຄ່າຄົງທີ່ຂອງເວລາ ຫຼື ວິທີການຕອບສະໜອງ, ບໍ່ແມ່ນນ້ຳໜັກ (Weight) ທີ່ໄດ້ມາຈາກການຮຽນຮູ້ຈະຖືກຂຽນທັບໃນລະຫວ່າງການອະນຸມານ (Inference) ແຕ່ຢ່າງໃດ.

ໂຄງສ້າງ Network ທີ່ອີງໃສ່ ODE (Ordinary Differential Equation)

ໃນ LNN, ສະຖານະທີ່ຊ່ອນຢູ່ (hidden state) ຂອງນິວຣອນຈະປ່ຽນແປງໄປຕາມເວລາໂດຍຖືກອະທິບາຍດ້ວຍສົມຜົນອະນຸພັນສາມັນ (ODE). ເມື່ອປຽບທຽບກັບເຄືອຂ່າຍແບບດັ້ງເດີມທີ່ຊ້ອນຊັ້ນແບບບໍ່ຕໍ່ເນື່ອງ, ສະຖານະຈະມີການປ່ຽນແປງໃນເວລາແບບຕໍ່ເນື່ອງ ແລະ ໄດ້ມາຈາກການອິນເຕີກຣັລ (integrate) ໂດຍໃຊ້ຕົວແກ້ໄຂບັນຫາທາງຕົວເລກ (numerical solver). ໃນຈຸດນີ້, LNN ຈຶ່ງຖືກຈັດຢູ່ໃນສາຍວິວັດທະນາການຂອງ Neural ODE.

ຂໍ້ດີຂອງການສະແດງສະຖານະໃນເວລາແບບຕໍ່ເນື່ອງ ຄືສາມາດຈັດການກັບຊ່ວງເວລາຂອງການສັງເກດການທີ່ບໍ່ເທົ່າກັນໄດ້. ເນື່ອງຈາກເຊັນເຊີ ຫຼື ເຫດການໃນໂລກຄວາມເປັນຈິງມັກຈະເກີດຂຶ້ນໃນຊ່ວງເວລາທີ່ບໍ່ສະໝໍ່າສະເໝີ, ຄຸນສົມບັດນີ້ຈຶ່ງກາຍເປັນຈຸດແຂງໃນການນຳໄປໃຊ້ງານຈິງສຳລັບວຽກງານດ້ານອະນຸກົມເວລາ (time-series) ແລະ ການຄວບຄຸມ.

ໃນທາງກົງກັນຂ້າມ, ເນື່ອງຈາກສະຖານະຖືກຄິດໄລ່ດ້ວຍການອິນເຕີກຣັລທາງຕົວເລກ, ຄວາມສົມດຸນລະຫວ່າງຕົ້ນທຶນການຄິດໄລ່ ແລະ ຄວາມແມ່ນຍຳຈຶ່ງປ່ຽນແປງໄປຕາມການເລືອກວິທີແກ້ໄຂ (solver). ຖ້າປັບຂະໜາດບາດກ້າວ (step size) ໃຫ້ລະອຽດຂຶ້ນ ຄວາມແມ່ນຍຳກໍຈະເພີ່ມຂຶ້ນ ແຕ່ການຄິດໄລ່ກໍຈະໜັກຂຶ້ນ. ການປັບແຕ່ງນີ້ຖືເປັນຈຸດສຳຄັນໃນການພິຈາລະນາເພື່ອການນຳໄປໃຊ້ງານຈິງ, ໂດຍສະເພາະໃນການຕິດຕັ້ງເທິງອຸປະກອນ Edge.

ຂະບວນການທີ່ Time-constant ປ່ຽນແປງແບບເຄື່ອນໄຫວ

ຂັ້ນຕອນໃນການອະນຸມານ (Inference) ໂດຍທົ່ວໄປຈະດຳເນີນໄປດັ່ງນີ້: (1) ຮັບຂໍ້ມູນນຳເຂົ້າ ແລະ ສະຖານະຊ່ອນເລັ້ນ (Hidden state) ໃນປັດຈຸບັນ. (2) ເຄືອຂ່າຍປະສາດທຽມພາຍໃນຈະຄຳນວນອັດຕາການປ່ຽນແປງຂອງສະຖານະ ແລະ ຄ່າຄົງທີ່ຂອງເວລາ (Time constant) ທີ່ຂຶ້ນກັບຂໍ້ມູນນຳເຂົ້າໃນຈຸດເວລານັ້ນ. (3) ODE solver ຈະເຮັດການອິນເຕກຣັດ (Integrate) ຄ່ານີ້ ແລະ ອັບເດດສະຖານະຊ່ອນເລັ້ນ. (4) ໄດ້ຮັບຜົນລັດຈາກສະຖານະທີ່ຖືກອັບເດດແລ້ວ.

ໃນແຕ່ລະຂັ້ນຕອນຂອງວົງຈອນນີ້, ຄ່າຄົງທີ່ຂອງເວລາຈະຖືກຄຳນວນໃໝ່ຕາມຂໍ້ມູນນຳເຂົ້າ, ເຮັດໃຫ້ພຶດຕິກຳຂອງເຄືອຂ່າຍປ່ຽນແປງໄປແບບ Real-time. ໃນທາງກົງກັນຂ້າມ, ນ້ຳໜັກ (Weights) ທີ່ໃຊ້ໃນການຄຳນວນເຫຼົ່ານີ້ຈະຖືກຄົງຄ່າໄວ້ຕາມທີ່ໄດ້ກຳນົດໄວ້ໃນຕອນຝຶກສອນ (Training). ດັ່ງນັ້ນ, ຄຳວ່າ "ແບບເຄື່ອນໄຫວ" (Dynamic) ຈຶ່ງບໍ່ໄດ້ໝາຍເຖິງການປັບປ່ຽນນ້ຳໜັກດ້ວຍຕົນເອງ, ແຕ່ໝາຍເຖິງການປ່ຽນແປງຂອງນະໂຍບາຍການຕອບສະໜອງ (Response dynamics) ພາຍໃຕ້ນ້ຳໜັກທີ່ຖືກຄົງຄ່າໄວ້.

LNN ເໝາະສົມກັບການນຳໃຊ້ປະເພດໃດ?

LNN ແມ່ນມີປະສິດທິພາບໂດຍສະເພາະໃນວຽກງານການປະມວນຜົນຂໍ້ມູນອະນຸກົມເວລາ (Time-series) ແລະຂໍ້ມູນເຊັນເຊີ, ລວມເຖິງວຽກງານດ້ານການຄວບຄຸມເຊັ່ນ: ການຂັບຂີ່ແບບອັດຕະໂນມັດ ແລະ ຫຸ່ນຍົນ. ມັນບໍ່ໄດ້ເນັ້ນໃສ່ການສ້າງຄວາມຮູ້ຂະໜາດໃຫຍ່, ແຕ່ມີຈຸດສຳຄັນ ຫຼື ແກນຫຼັກ ຢູ່ທີ່ການນຳໃຊ້ເພື່ອປັບຕົວເຂົ້າກັບຂໍ້ມູນຂາເຂົ້າທີ່ມີການປ່ຽນແປງຢູ່ຕະຫຼອດເວລາແບບ Real-time.

ການນຳໃຊ້ກັບການປະມວນຜົນຂໍ້ມູນ Time-series ແລະ Sensor

LNN ທີ່ຈັດການກັບສະຖານະໃນເວລາຕໍ່ເນື່ອງ ແມ່ນເໝາະສົມສຳລັບການປະມວນຜົນຂໍ້ມູນທີ່ມີໄລຍະຫ່າງຂອງການສຸ່ມຕົວຢ່າງ (Sampling interval) ບໍ່ສະໝໍ່າສະເໝີ ຫຼື ສັນຍານທີ່ມີທ່າອ່ຽງປ່ຽນແປງໃນໄລຍະຍາວ. ໂດຍສະເພາະ, ຕົວຢ່າງທີ່ເໝາະສົມໄດ້ແກ່ ການຕິດຕາມເຊັນເຊີຂອງອຸປະກອນອຸດສາຫະກຳ, ການວິເຄາະສັນຍານຊີວະພາບ (ເຊັ່ນ: ອັດຕາການເຕັ້ນຂອງຫົວໃຈ, ຄື້ນສະໝອງ), ແລະ ການຄາດຄະເນອະນຸກົມເວລາທາງການເງິນ.

Hasani ແລະ ຄະນະ ຍັງໄດ້ຍົກເຖິງຄວາມເປັນໄປໄດ້ໃນການນຳໄປປະຍຸກໃຊ້ກັບການຕັດສິນໃຈທີ່ອີງໃສ່ກະແສຂໍ້ມູນທີ່ມີການປ່ຽນແປງຕາມເວລາ ເຊັ່ນ: ການວິນິດໄສທາງການແພດ ຫຼື ການຂັບຂີ່ແບບອັດຕະໂນມັດ. ສິ່ງສຳຄັນຄືຄວາມສາມາດໃນການປັບປ່ຽນພຶດຕິກຳຢ່າງຍືດຫຍຸ່ນຕໍ່ກັບສັນຍານລົບກວນ (Noise) ແລະ ການປ່ຽນແປງຂອງສະຖານະການ, ເຊິ່ງຄາດວ່າຈະສາມາດຕິດຕາມ "ວັດຖຸທີ່ມີການເຄື່ອນໄຫວ" ໄດ້ດີກວ່າແບບຈຳລອງທີ່ຕາຍຕົວ.

ຕົວຢ່າງເຊັ່ນ: ການບຳລຸງຮັກສາແບບຄາດການ (Predictive maintenance) ທີ່ກວດຈັບສັນຍານເຕືອນໄພລ່ວງໜ້າຈາກເຊັນເຊີການສັ່ນສະເທືອນໃນສາຍການຜະລິດ, ຫຼື ການນຳໃຊ້ເພື່ອຊອກຫາການປ່ຽນແປງຂອງສະຖານະຈາກສັນຍານຊີວະພາບຂອງອຸປະກອນສວມໃສ່ (Wearable devices) ແມ່ນສອດຄ່ອງກັບຄຸນລັກສະນະຂອງ LNN ໃນແງ່ທີ່ວ່າຈັງຫວະຂອງຂໍ້ມູນຂາເຂົ້າບໍ່ຄົງທີ່. ໃນທາງກົງກັນຂ້າມ, ສຳລັບວຽກງານທີ່ເປັນແບບສະຖິດ (Static tasks) ເຊິ່ງບໍ່ມີໂຄງສ້າງທາງເວລາ ເຊັ່ນ: ການຈັດໝວດໝູ່ຮູບພາບ, ຂໍ້ດີດ້ານຄວາມເປັນໄດນາມິກຂອງ LNN ອາດຈະບໍ່ຖືກນຳມາໃຊ້ຢ່າງເຕັມປະສິດທິພາບ.

ຕົວຢ່າງການນຳໃຊ້ໃນລະບົບຂັບເຄື່ອນອັດຕະໂນມັດ ແລະ ຫຸ່ນຍົນ

ຕົວຢ່າງການນຳໃຊ້ທີ່ຮູ້ຈັກກັນດີທີ່ສຸດ ແມ່ນການບິນແບບອັດຕະໂນມັດຂອງໂດຣນໂດຍ MIT. ໃນໜ້າວຽກທີ່ຕ້ອງບິນໄປຫາເປົ້າໝາຍໂດຍອາໄສການເບິ່ງເຫັນ, ເອເຈນທີ່ອີງໃສ່ LNN ສາມາດບິນໄດ້ຢ່າງໝັ້ນຄົງໂດຍບໍ່ຕ້ອງມີການປັບແຕ່ງລະອຽດ (Fine-tuning) ເຖິງແມ່ນວ່າຈະຢູ່ໃນສະພາບແວດລ້ອມທີ່ບໍ່ຮູ້ຈັກເຊິ່ງບໍ່ເຄີຍເຫັນມາກ່ອນໃນຕອນຝຶກຝົນ (MIT News, 2023).

ມີການລາຍງານວ່າ ໃນການທົດສອບຄວາມທົນທານຕໍ່ຂອບເຂດ, ການໝຸນ, ການບັງ, ແລະ ການຕິດຕາມເປົ້າໝາຍແບບເຄື່ອນໄຫວ, ມັນມີການບ່ຽງເບນຂອງເສັ້ນທາງໜ້ອຍກວ່າ Neural Network ແບບດັ້ງເດີມ. ດັ່ງທີ່ໄດ້ກ່າວມາຂ້າງຕົ້ນ, ເນື່ອງຈາກມັນສາມາດນຳໄປໃຊ້ງານໄດ້ເບົາບາງເຖິງຂັ້ນສາມາດ "ຂັບລົດເທິງ Raspberry Pi" ໄດ້, ມັນຈຶ່ງເໝາະສົມສຳລັບການຄວບຄຸມໃນຫຸ່ນຍົນ ຫຼື ລະບົບທີ່ຕິດຕັ້ງໃນລົດທີ່ມີຊັບພະຍາກອນການຄຳນວນຈຳກັດ.

ສະຖານະການທີ່ສາມາດປັບຕົວໄດ້ໂດຍບໍ່ຕ້ອງ Fine-tuning

LNN ແມ່ນເນື່ອງຈາກໄດນາມິກປັບຕົວຕາມການປ້ອນຂໍ້ມູນ, ມັນຈຶ່ງສາມາດສ້າງຄວາມເປັນທົ່ວໄປ (Generalization) ໃນລະດັບໜຶ່ງຕໍ່ສະຖານະການທີ່ແຕກຕ່າງຈາກສະພາບແວດລ້ອມທີ່ໄດ້ຮຽນຮູ້ມາ ໂດຍບໍ່ຈຳເປັນຕ້ອງຮຽນຮູ້ໃໝ່. ຕົວຢ່າງທີ່ໂດຣນສາມາດປັບຕົວຈາກປ່າໄມ້ໃນລະດູຮ້ອນໄປສູ່ລະດູໜາວ ຫຼື ເຂດຕົວເມືອງໄດ້ນັ້ນ ແມ່ນສະແດງໃຫ້ເຫັນເຖິງ "ຄວາມທົນທານຕໍ່ການກະຈາຍຕົວນອກເໜືອຈາກທີ່ກຳນົດໄວ້" (Out-of-distribution robustness) ນີ້.

ຢ່າງໃດກໍຕາມ, ສິ່ງທີ່ຄວນລະວັງຄື: ນີ້ແມ່ນ "ການປັບຕົວຂອງໄດນາມິກການຕອບສະໜອງ" ເຊິ່ງແຕກຕ່າງຈາກ "ການຮຽນຮູ້ວຽກງານໃໝ່ຈາກສູນ". ເນື່ອງຈາກຄ່ານ້ຳໜັກ (Weights) ຖືກຄົງຄ່າໄວ້, ມັນຈຶ່ງບໍ່ໄດ້ໝາຍຄວາມວ່າຈະສາມາດແກ້ໄຂບັນຫາທີ່ແຕກຕ່າງໄປຈາກເດີມໄດ້ຢ່າງສິ້ນເຊີງ. ຄວາມເຂົ້າໃຈທີ່ຖືກຕ້ອງຄື: ມັນສາມາດຮັບມືກັບການປ່ຽນແປງຂອງສະຖານະການໄດ້ຢ່າງທົນທານ ພາຍໃນຂອບເຂດຂອງຄວາມສາມາດທີ່ໄດ້ຮຽນຮູ້ມາແລ້ວເທົ່ານັ້ນ.

ວິທີການປຽບທຽບ LNN ກັບສະຖາປັດຕະຍະກຳ AI ລຸ້ນໃໝ່ອື່ນໆ

LNN ແມ່ນຍັງບໍ່ທັນສາມາດທຽບເທົ່າກັບ Transformer ໃນດ້ານການສ້າງພາສາຂະໜາດໃຫຍ່ໄດ້, ແຕ່ມີຈຸດແຂງສະເພາະຕົວໃນດ້ານການຄວບຄຸມເວລາຕໍ່ເນື່ອງ, ການປະມວນຜົນອະນຸກົມເວລາ, ການໃຊ້ຊັບພະຍາກອນຄຳນວນໜ້ອຍ ແລະ ຄວາມທົນທານຕໍ່ຂໍ້ມູນນອກການແຈກຢາຍ (Out-of-distribution). ຄວນເບິ່ງວ່າເປັນສະຖາປັດຕະຍະກຳທີ່ເສີມກັນຫຼາຍກວ່າການເປັນຄູ່ແຂ່ງ, ໂດຍແຕ່ລະອັນມີຂົງເຂດທີ່ຕົນເອງຖະໜັດແຕກຕ່າງກັນ.

ການປຽບທຽບກັບ Transformer: ຄວາມແຕກຕ່າງຂອງ Context Window ແລະ Dynamic

Transformer ແມ່ນມີກົນໄກການເອົາໃຈໃສ່ດ້ວຍຕົນເອງ (Self-attention) ເຊິ່ງສາມາດປະມວນຜົນບໍລິບົດທີ່ກວ້າງຂວາງໄດ້ແບບຂະໜານ, ເຮັດໃຫ້ມີປະສິດທິພາບສູງໃນວຽກງານດ້ານພາສາ ແລະ ລຳດັບຂໍ້ມູນຂະໜາດໃຫຍ່. ໃນທາງກົງກັນຂ້າມ, ມັນຕ້ອງການພາຣາມິເຕີຈຳນວນຫຼາຍ ແລະ ພຶດຕິກຳໃນຂະນະປະມວນຜົນ (Inference) ຈະຖືກຄົງຄ່າໄວ້. ສ່ວນ LNN ແມ່ນໂຄງສ້າງແບບຮີເຄີຊິບ (Recursive) ທີ່ໃຊ້ເວລາຕໍ່ເນື່ອງ, ມີຄວາມກະທັດຮັດ ແລະ ພຶດຕິກຳສາມາດປ່ຽນແປງໄດ້ຕາມຂໍ້ມູນນຳເຂົ້າ.

ມຸມມອງTransformerLNN
ຂອບເຂດທີ່ຖະໜັດພາສາ ແລະ ລຳດັບຂໍ້ມູນຂະໜາດໃຫຍ່ການຄວບຄຸມ ແລະ ຂໍ້ມູນອະນຸກົມເວລາ
ການຈັດການກັບເວລາແຍກສ່ວນ ແລະ ຂະໜານເວລາຕໍ່ເນື່ອງ (ODE)
ຂະໜາດພາຣາມິເຕີໃຫຍ່ນ້ອຍ
ຄວາມສາມາດໃນການປັບຕົວຂະນະປະມວນຜົນຕ່ຳສູງ

ນອກຈາກນີ້, LNN ເປັນໂຄງສ້າງແບບຮີເຄີຊິບທີ່ອັບເດດສະຖານະຕາມລຳດັບ, ຈຶ່ງບໍ່ເໝາະສົມກັບການຮຽນຮູ້ແບບຂະໜາດໃຫຍ່ຂະໜານຄືກັບ Transformer. ຄວາມແຕກຕ່າງທາງແນວຄິດການອອກແບບລະຫວ່າງການເນັ້ນຂະຫຍາຍ (Scale-oriented) ກັບການເນັ້ນຄວາມເບົາບາງ ແລະ ການປັບຕົວ (Lightweight/Adaptive-oriented) ແມ່ນປັດໄຈທີ່ກຳນົດການເລືອກໃຊ້ທັງສອງຢ່າງນີ້. ມັນບໍ່ແມ່ນເລື່ອງຂອງການທີ່ອັນໃດດີກວ່າ, ແຕ່ການເລືອກໃຊ້ໃຫ້ເໝາະສົມກັບລັກສະນະຂອງວຽກງານແມ່ນວິທີທີ່ເປັນຈິງທີ່ສຸດ.

ຄວາມແຕກຕ່າງຈາກ Sparse Model ແລະ MoE

Sparse models ແລະ MoE (Mixture of Experts) ແມ່ນວິທີການເພີ່ມປະສິດທິພາບການຄຳນວນຂອງແບບຈຳລອງຂະໜາດໃຫຍ່ ໂດຍການເລືອກເປີດໃຊ້ງານພຽງບາງສ່ວນຂອງພາຣາມິເຕີເທົ່ານັ້ນ. ຈຸດສຳຄັນ ຫຼື ແກນຫຼັກ ແມ່ນ "ວິທີການຂະຫຍາຍຂະໜາດແບບຈຳລອງຂະໜາດໃຫຍ່ໃຫ້ມີປະສິດທິພາບສູງສຸດ".

ໃນທາງກົງກັນຂ້າມ, LNN ຈັດການກັບອີກແກນໜຶ່ງຄື ການປັບຕົວຕາມເວລາ. MoE ເຊິ່ງໃຊ້ພາຣາມິເຕີທີ່ແຕກຕ່າງກັນໂດຍການຄຳນວນແບບມີເງື່ອນໄຂ ແລະ LNN ເຊິ່ງປ່ຽນແປງພຶດຕິກຳດ້ວຍນະໂຍບາຍການເຄື່ອນໄຫວແບບຕໍ່ເນື່ອງຕາມເວລາ (Continuous-time dynamics) ນັ້ນ ມີຈຸດປະສົງທີ່ແຕກຕ່າງກັນ ແລະ ບໍ່ໄດ້ແຂ່ງຂັນກັນໂດຍກົງ. ໃນທາງທິດສະດີ, ມັນເປັນໄປໄດ້ທີ່ຈະລວມເອົາການຂະຫຍາຍຂະໜາດທີ່ມີປະສິດທິພາບເຂົ້າກັບການປັບຕົວຕາມເວລາເຂົ້າດ້ວຍກັນ.

ຄວາມເຂົ້າໃຈຜິດທີ່ພົບເລື້ອຍກ່ຽວກັບ LNN ແມ່ນຫຍັງ?

LNN ມີຄວາມເຂົ້າໃຈຜິດທີ່ເປັນຕົວແທນຢູ່ 2 ປະການຄື: "ເປັນທາງເລືອກຂອງ LLM ແບບທົ່ວໄປ" ແລະ "ບໍ່ຈຳເປັນຕ້ອງມີການຮຽນຮູ້ເພາະມັນມີຄວາມເຄື່ອນໄຫວ (Dynamic)". ທັງສອງຢ່າງນີ້ແມ່ນການເຂົ້າໃຈຜິດກ່ຽວກັບແກນຫຼັກ ຫຼື ຈຸດສຳຄັນຂອງ LNN ເຊິ່ງອາດເຮັດໃຫ້ການຕັດສິນໃຈໃນການນຳໃຊ້ຜິດພາດ, ສະນັ້ນຈຶ່ງຂໍສະຫຼຸບໄວ້ດັ່ງນີ້.

ຄວາມເຂົ້າໃຈຜິດທີ່ວ່າ "LNN ເປັນທາງເລືອກແທນ LLM ທົ່ວໄປ"

LNN ບໍ່ແມ່ນທາງເລືອກແທນທີ່ຂອງແບບຈຳລອງພາສາຂະໜາດໃຫຍ່ (LLM) ແບບທົ່ວໄປ. ວຽກງານທີ່ຕ້ອງການຄວາມເຂົ້າໃຈດ້ານພາສາໃນວົງກວ້າງ ເຊັ່ນ: ການສ້າງຂໍ້ຄວາມ ຫຼື ການຕອບຄຳຖາມຄວາມຮູ້ ແມ່ນຂອບເຂດຂອງ LLM. ຈຸດແຂງຂອງ LNN ແມ່ນຢູ່ໃນວຽກງານການຄວບຄຸມ ແລະ ຂໍ້ມູນອະນຸກົມເວລາ (Time-series) ທີ່ປະມວນຜົນຂໍ້ມູນຂາເຂົ້າທີ່ມີການປ່ຽນແປງຕະຫຼອດເວລາແບບ Real-time.

ທັງສອງຢ່າງນີ້ບໍ່ໄດ້ແຂ່ງຂັນກັນໃນສະໜາມດຽວກັນ, ແຕ່ມີບົດບາດທີ່ແຕກຕ່າງກັນ. ຕົວຢ່າງເຊັ່ນ: ການປະສົມປະສານທີ່ອາດເປັນໄປໄດ້ຄື LNN ຮັບຜິດຊອບການຄວບຄຸມເຊັນເຊີຢູ່ຝັ່ງອຸປະກອນ (Terminal), ໃນຂະນະທີ່ LLM ຮັບຜິດຊອບຄວາມເຂົ້າໃຈຄຳສັ່ງຜ່ານພາສາທຳມະຊາດ. ຖ້າເລີ່ມພິຈາລະນາໂດຍຕັ້ງສົມມຸດຕິຖານວ່າ "LNN ຈະມາແທນທີ່ LLM", ທ່ານອາດຈະເຂົ້າໃຈຜິດກ່ຽວກັບຈຸດປະສົງການນຳໃຊ້.

ໃນການປະຕິບັດງານຕົວຈິງ, ຈຸດເລີ່ມຕົ້ນຂອງການເລືອກສະຖາປັດຕະຍະກຳແມ່ນການແຍກໃຫ້ອອກກ່ອນວ່າ ບັນຫາທີ່ຕ້ອງການແກ້ໄຂນັ້ນແມ່ນ "ການປັບຕົວເຂົ້າກັບຂໍ້ມູນຂາເຂົ້າທີ່ມີການປ່ຽນແປງຢ່າງຕໍ່ເນື່ອງ" ຫຼື "ການປະມວນຜົນຄວາມຮູ້ ແລະ ພາສາໃນວົງກວ້າງ".

ຄວາມເຂົ້າໃຈຜິດທີ່ວ່າ "Dynamic ເທົ່າກັບ ບໍ່ຈຳເປັນຕ້ອງຮຽນຮູ້"

ການເຂົ້າໃຈຜິດວ່າ "ການຮຽນຮູ້ບໍ່ຈຳເປັນ" ພຽງແຕ່ຍ້ອນຄຳວ່າ "ແບບເຄື່ອນໄຫວ (Dynamic)" ນັ້ນຖືເປັນຄວາມເຂົ້າໃຈທີ່ຜິດ. ສຳລັບ LNN ກໍຍັງຈຳເປັນຕ້ອງມີການຮຽນຮູ້ເພື່ອໃຫ້ໄດ້ມາເຊິ່ງນ້ຳໜັກ (Parameters θ) ຕາມປົກກະຕິ ແລະ ມັນຈະບໍ່ສາມາດເຮັດວຽກໄດ້ຫາກບໍ່ໄດ້ຜ່ານການຝຶກຝົນຈາກຂໍ້ມູນ.

ສິ່ງທີ່ປ່ຽນແປງໃນຂະນະທີ່ອະນຸມານ (Inference) ຄືຄ່າຄົງທີ່ຂອງເວລາ (Time constant) ຂອງແຕ່ລະນິວຣອນ ຫຼື ວິທີການຕອບສະໜອງ, ບໍ່ແມ່ນການຂຽນທັບນ້ຳໜັກທີ່ຮຽນຮູ້ມາແລ້ວໂດຍອັດຕະໂນມັດ. ກ່າວຄື: LNN ແມ່ນ "ການສ້າງພື້ນຖານດ້ວຍການຮຽນຮູ້ ແລະ ປັບປ່ຽນພຶດຕິກຳຢ່າງຍືດຫຍຸ່ນຢູ່ເທິງພື້ນຖານທີ່ຄົງຄ່າໄວ້ໃນຂະນະອະນຸມານ". ຫາກບໍ່ເຂົ້າໃຈຄວາມແຕກຕ່າງນີ້ ກໍອາດນຳໄປສູ່ຄວາມຄາດຫວັງທີ່ເກີນຈິງ ເຊັ່ນ: "ມັນຈະສະຫຼາດຂຶ້ນເອງໂດຍອັດຕະໂນມັດເມື່ອນຳໄປໃຊ້".

ວິທີການເລີ່ມຕົ້ນການຮຽນຮູ້ ແລະ ນຳໃຊ້ LNN

ຖ້າຫາກຕ້ອງການເລີ່ມຕົ້ນຮຽນຮູ້ LNN, ທາງລັດທີ່ດີທີ່ສຸດແມ່ນການເລີ່ມຈາກວຽກງານດ້ານອະນຸກົມເວລາ (Time-series) ແລະ ການຄວບຄຸມຂະໜາດນ້ອຍ ໂດຍປຽບທຽບກັບວິທີການທີ່ມີຢູ່ແລ້ວເຊັ່ນ LSTM. ໃນດ້ານການຈັດຕັ້ງປະຕິບັດ, ມີຫ້ອງສະໝຸດ Open-source ເຊັ່ນ Neural Circuit Policies (ncps) ທີ່ເປີດໃຫ້ໃຊ້ງານສຳລັບ PyTorch, ເຊິ່ງສາມາດທົດລອງໃຊ້ LTC ຫຼື ແບບຈຳລອງ CfC (Closed-form Continuous-time) ທີ່ເປັນອະນຸພັນເຊິ່ງຊ່ວຍໃຫ້ການຮຽນຮູ້ໄວຂຶ້ນໄດ້.

ຖ້າຕ້ອງການເຂົ້າໃຈພື້ນຖານທາງທິດສະດີ, ໃຫ້ເລີ່ມຕົ້ນຈາກເອກະສານຕົ້ນສະບັບ Liquid Time-constant Networks (arXiv:2006.04439) ຫຼື ຂໍ້ມູນທີ່ເປີດເຜີຍໂດຍ MIT CSAIL. ໃນເບື້ອງຕົ້ນ, ຄວນທົດສອບໃນຂອບເຂດນ້ອຍໆວ່າ LNN ສາມາດແກ້ໄຂບັນຫາ "ການຕິດຕາມການປ່ຽນແປງ" ຫຼື "ຄວາມທົນທານຕໍ່ຂໍ້ມູນນອກກຸ່ມ (Out-of-distribution)" ທີ່ແບບຈຳລອງປັດຈຸບັນຍັງເຮັດໄດ້ບໍ່ດີພໍຫຼືບໍ່.

ໃນການກວດສອບ, ບໍ່ຄວນພິຈາລະນາພຽງແຕ່ຄວາມຖືກຕ້ອງເທົ່ານັ້ນ ແຕ່ຄວນປຽບທຽບ Inference latency, ການໃຊ້ງານໜ່ວຍຄວາມຈຳ ແລະ ຄວາມສະຖຽນຂອງຂໍ້ມູນນອກກຸ່ມ ພາຍໃຕ້ເງື່ອນໄຂດຽວກັນກັບວິທີການທີ່ມີຢູ່. ຫາກມຸ່ງເປົ້າໄປທີ່ການຈັດຕັ້ງປະຕິບັດໃນລະດັບ Edge, ການນຳໄປທົດລອງໃຊ້ງານຈິງເທິງ Hardware ເປົ້າໝາຍເພື່ອຢືນຢັນຂໍ້ຈຳກັດດ້ານຊັບພະຍາກອນແຕ່ຫົວທີ ຈະຊ່ວຍປ້ອງກັນການແກ້ໄຂງານຄືນໃໝ່ໄດ້.

ບໍລິສັດຂອງພວກເຮົາໃຫ້ການສະໜັບສະໜູນຕັ້ງແຕ່ການຄັດເລືອກເທັກໂນໂລຊີໄປຈົນເຖິງການຈັດຕັ້ງປະຕິບັດ AI, ລວມເຖິງການອະນຸມານໃນສະພາບແວດລ້ອມ Edge ແລະ ການນຳໃຊ້ຂໍ້ມູນຈາກເຊັນເຊີ. ຫາກທ່ານຕ້ອງການປຶກສາຫາລືກ່ຽວກັບການພິຈາລະນາວ່າ LNN ເໝາະສົມກັບບັນຫາຂອງບໍລິສັດທ່ານຫຼືບໍ່, ສາມາດຕິດຕໍ່ສອບຖາມພວກເຮົາໄດ້ທຸກເມື່ອ.

ຜູ້ຂຽນ・ຜູ້ກວດສອບ

Yusuke Ishihara

Yusuke Ishihara

ເລີ່ມຂຽນໂປຣແກຣມຕັ້ງແຕ່ອາຍຸ 13 ປີ ດ້ວຍ MSX. ຫຼັງຈົບການສຶກສາຈາກມະຫາວິທະຍາໄລ Musashi, ໄດ້ເຮັດວຽກໃນການພັດທະນາລະບົບຂະໜາດໃຫຍ່ ລວມທັງລະບົບຫຼັກຂອງສາຍການບິນ ແລະ ໂຄງສ້າງ Windows Server Hosting/VPS ທຳອິດຂອງຍີ່ປຸ່ນ. ຮ່ວມກໍ່ຕັ້ງ Site Engine Inc. ໃນປີ 2008. ກໍ່ຕັ້ງ Unimon Inc. ໃນປີ 2010 ແລະ Enison Inc. ໃນປີ 2025, ນຳພາການພັດທະນາລະບົບທຸລະກິດ, NLP ແລະ ແພລດຟອມ. ປັດຈຸບັນສຸມໃສ່ການພັດທະນາຜະลິດຕະພັນ ແລະ ການສົ່ງເສີມ AI/DX ໂດຍນຳໃຊ້ generative AI ແລະ LLM.