ຂໍ້ມູນສັງເຄາະ (Synthetic Data)

ຂໍ້ມູນສັງເຄາະ (Synthetic Data)

ຂໍ້ມູນການຝຶກອົບຮົມທີ່ສ້າງຂຶ້ນໂດຍ AI. ໃຊ້ເພື່ອຊົດເຊີຍຄວາມບໍ່ພຽງພໍຂອງຂໍ້ມູນຈິງ ແລະ ນຳໃຊ້ໃນການຮຽນຮູ້ ແລະ ປະເມີນຜົນ model ໃນຂະນະທີ່ປົກປ້ອງຄວາມເປັນສ່ວນຕົວ.

ຂໍ້ມູນສັງເຄາະ ຄືຫຍັງ

ຂໍ້ມູນສັງເຄາະ(Synthetic Data)ແມ່ນຊຸດຂໍ້ມູນທີ່ສ້າງຂຶ້ນດ້ວຍວິທີທຽມ ໂດຍໃຊ້ AI ຫຼື algorithm ທີ່ອີງໃສ່ກົດລະບຽບ ໂດຍບໍ່ໄດ້ໃຊ້ຂໍ້ມູນຈິງໂດຍກົງ. ຖືກນຳໃຊ້ຢ່າງກວ້າງຂວາງໃນການຝຶກ, ການປະເມີນ, ແລະ ການກັ່ນຄວາມຮູ້ (distillation) ຂອງ model.

ສະຖານະການທີ່ຕ້ອງການຂໍ້ມູນສັງເຄາະ

ຂໍ້ມູນຈິງມີສາມອຸປະສັກຄື: "ປະລິມານບໍ່ພຽງພໍ", "ມີຄວາມລຳອຽງ", ແລະ "ມີຂໍ້ມູນສ່ວນຕົວ". ຕົວຢ່າງ, ໃນວົງການການແພດ, ຂໍ້ມູນຮູບພາບຂອງພະຍາດຫາຍາກມີຈຳນວນໜ້ອຍຫຼາຍ, ໃນຂະນະທີ່ວົງການການເງິນ, ຂໍ້ມູນທຸລະກຳທີ່ສໍ້ໂກງກໍ່ມັກຈະມີໜ້ອຍກວ່າ 0.1% ຂອງທັງໝົດ. ຂໍ້ມູນສັງເຄາະເປັນວິທີການທີ່ໃຊ້ງານໄດ້ຈິງໃນການຕື່ມຊ່ອງຫວ່າງເຫຼົ່ານີ້.

ຂໍ້ມູນສັງເຄາະໃນຍຸກ LLM

ການປະສົມປະສານກັບ knowledge distillation ກຳລັງຂະຫຍາຍຕົວຢ່າງວ່ອງໄວ. ວິທີການນີ້ຄືການໃຫ້ prompt ທີ່ຫຼາກຫຼາຍແກ່ teacher model ຂະໜາດໃຫຍ່ເພື່ອສ້າງຄຳຕອບ, ແລ້ວໃຊ້ output ດັ່ງກ່າວເປັນຂໍ້ມູນຝຶກ student model —— ນີ້ແມ່ນ pipeline ທີ່ຖືກພິສູດໂດຍຄວາມສຳເລັດຂອງ Microsoft Phi series.

ຍັງຖືກໃຊ້ໃນການສ້າງຂໍ້ມູນຝຶກສຳລັບ fine-tuning ອີກດ້ວຍ. ວິທີການທີ່ໃຊ້ LLM ສ້າງຄູ່ Q&A ໂດຍອັດຕະໂນມັດຈາກເອກະສານພາຍໃນ ແລ້ວໃຊ້ຂໍ້ມູນດັ່ງກ່າວເພື່ອປັບປຸງຄຸນນະພາບຄຳຕອບຂອງ RAG ນັ້ນ, ໄດ້ຮັບຜົນສຳເລັດໃນໂຄງການຂອງຜູ້ຂຽນເອງ.

ຄວາມສ່ຽງທີ່ຄວນລະວັງ

ຫາກຝຶກ model ດ້ວຍຂໍ້ມູນສັງເຄາະເທົ່ານັ້ນ, ອາດເກີດ "model collapse" ຊຶ່ງ model ຈະຂະຫຍາຍຮູບແບບ output ຂອງຕົນເອງ. ການອອກແບບລະບົບການດຳເນີນງານທີ່ຄຸ້ມຄອງອັດຕາສ່ວນການຜະສົມກັບຂໍ້ມູນຈິງ ແລະ ໃຫ້ມະນຸດກວດສອບຄຸນນະພາບຢ່າງສະໝ່ຳສະເໝີ ແມ່ນສິ່ງທີ່ຂາດບໍ່ໄດ້.