ຂໍ້ມູນສັງເຄາະ (Synthetic Data)

ຂໍ້ມູນການຝຶກອົບຮົມທີ່ສ້າງຂຶ້ນໂດຍ AI. ໃຊ້ເພື່ອຊົດເຊີຍຄວາມບໍ່ພຽງພໍຂອງຂໍ້ມູນຈິງ ແລະ ນຳໃຊ້ໃນການຮຽນຮູ້ ແລະ ປະເມີນຜົນ model ໃນຂະນະທີ່ປົກປ້ອງຄວາມເປັນສ່ວນຕົວ.
ຂໍ້ມູນສັງເຄາະ ຄືຫຍັງ
ຂໍ້ມູນສັງເຄາະ(Synthetic Data)ແມ່ນຊຸດຂໍ້ມູນທີ່ສ້າງຂຶ້ນດ້ວຍວິທີທຽມ ໂດຍໃຊ້ AI ຫຼື algorithm ທີ່ອີງໃສ່ກົດລະບຽບ ໂດຍບໍ່ໄດ້ໃຊ້ຂໍ້ມູນຈິງໂດຍກົງ. ຖືກນຳໃຊ້ຢ່າງກວ້າງຂວາງໃນການຝຶກ, ການປະເມີນ, ແລະ ການກັ່ນຄວາມຮູ້ (distillation) ຂອງ model.
ສະຖານະການທີ່ຕ້ອງການຂໍ້ມູນສັງເຄາະ
ຂໍ້ມູນຈິງມີສາມອຸປະສັກຄື: "ປະລິມານບໍ່ພຽງພໍ", "ມີຄວາມລຳອຽງ", ແລະ "ມີຂໍ້ມູນສ່ວນຕົວ". ຕົວຢ່າງ, ໃນວົງການການແພດ, ຂໍ້ມູນຮູບພາບຂອງພະຍາດຫາຍາກມີຈຳນວນໜ້ອຍຫຼາຍ, ໃນຂະນະທີ່ວົງການການເງິນ, ຂໍ້ມູນທຸລະກຳທີ່ສໍ້ໂກງກໍ່ມັກຈະມີໜ້ອຍກວ່າ 0.1% ຂອງທັງໝົດ. ຂໍ້ມູນສັງເຄາະເປັນວິທີການທີ່ໃຊ້ງານໄດ້ຈິງໃນການຕື່ມຊ່ອງຫວ່າງເຫຼົ່ານີ້.
ຂໍ້ມູນສັງເຄາະໃນຍຸກ LLM
ການປະສົມປະສານກັບ knowledge distillation ກຳລັງຂະຫຍາຍຕົວຢ່າງວ່ອງໄວ. ວິທີການນີ້ຄືການໃຫ້ prompt ທີ່ຫຼາກຫຼາຍແກ່ teacher model ຂະໜາດໃຫຍ່ເພື່ອສ້າງຄຳຕອບ, ແລ້ວໃຊ້ output ດັ່ງກ່າວເປັນຂໍ້ມູນຝຶກ student model —— ນີ້ແມ່ນ pipeline ທີ່ຖືກພິສູດໂດຍຄວາມສຳເລັດຂອງ Microsoft Phi series.
ຍັງຖືກໃຊ້ໃນການສ້າງຂໍ້ມູນຝຶກສຳລັບ fine-tuning ອີກດ້ວຍ. ວິທີການທີ່ໃຊ້ LLM ສ້າງຄູ່ Q&A ໂດຍອັດຕະໂນມັດຈາກເອກະສານພາຍໃນ ແລ້ວໃຊ້ຂໍ້ມູນດັ່ງກ່າວເພື່ອປັບປຸງຄຸນນະພາບຄຳຕອບຂອງ RAG ນັ້ນ, ໄດ້ຮັບຜົນສຳເລັດໃນໂຄງການຂອງຜູ້ຂຽນເອງ.
ຄວາມສ່ຽງທີ່ຄວນລະວັງ
ຫາກຝຶກ model ດ້ວຍຂໍ້ມູນສັງເຄາະເທົ່ານັ້ນ, ອາດເກີດ "model collapse" ຊຶ່ງ model ຈະຂະຫຍາຍຮູບແບບ output ຂອງຕົນເອງ. ການອອກແບບລະບົບການດຳເນີນງານທີ່ຄຸ້ມຄອງອັດຕາສ່ວນການຜະສົມກັບຂໍ້ມູນຈິງ ແລະ ໃຫ້ມະນຸດກວດສອບຄຸນນະພາບຢ່າງສະໝ່ຳສະເໝີ ແມ່ນສິ່ງທີ່ຂາດບໍ່ໄດ້.
ຄຳສັບທີ່ກ່ຽວຂ້ອງ

AI ROI (ຜົນຕອບແທນຈາກການລົງທຶນ AI)
AI ROI ແມ່ນຕົວຊີ້ວັດທີ່ໃຊ້ວັດແທກຜົນໄດ້ຮັບຢ່າງເປັນປະລິມານ ເຊັ່ນ: ການປັບປຸງປະສິດທິພາບການເຮັດວຽກ ແລະ ກາ

AI ຄາດຄະເນຄວາມຕ້ອງການ (Demand Forecasting AI)
AI ຄາດການຄວາມຕ້ອງການ (Demand Forecasting AI) ແມ່ນລະບົບທີ່ໃຊ້ການຮຽນຮູ້ຂອງເຄື່ອງຈັກ (Machine Learning)

AI ສ້າງສັນ (Generative AI)
Generative AI ແມ່ນຄຳສັບລວມຂອງຕົວແບບ AI ທີ່ສາມາດສ້າງເນື້ອຫາຕ່າງໆ ເຊັ່ນ: ຂໍ້ຄວາມ, ຮູບພາບ, ສຽງ ແລະ ວິດີ

AI ອ້ອມຂ້າງ
ອຳບຽງ AI (Ambient AI) ໝາຍເຖິງລະບົບ AI ທີ່ຝັງຕົວຢູ່ໃນສະພາບແວດລ້ອມຂອງຜູ້ໃຊ້ງານ, ຄອຍຕິດຕາມຂໍ້ມູນຈາກເຊັນ