ການຄົ້ນຫາແບບຄວາມໝາຍ (Semantic Search) ແມ່ນຫຍັງ? ຄຳສັບ AI, DX & Security ພ້ອມແຜນພາບ

ການຄົ້ນຫາແບບ Semantic (Semantic search) ແມ່ນວິທີການສະແດງຜົນການຄົ້ນຫາໂດຍອີງໃສ່ "ຄວາມໃກ້ຄຽງທາງຄວາມໝາຍ" ລະຫວ່າງຄຳຄົ້ນຫາ (Query) ແລະ ເອກະສານ. ແທນທີ່ຈະໃຊ້ການຈັບຄູ່ຕົວອັກສອນຂອງຄຳສຳຄັນ, ວິທີນີ້ຈະໃຊ້ການຝັງຕົວ (Embedding) ເພື່ອປ່ຽນຂໍ້ຄວາມໃຫ້ເປັນພື້ນທີ່ເວັກເຕີ (Vector space) ແລະ ວັດແທກຄວາມກ່ຽວຂ້ອງໂດຍໃຊ້ຟັງຊັນໄລຍະຫ່າງ ເຊັ່ນ: ຄວາມຄ້າຍຄືກັນຂອງໂຄຊາຍ (Cosine similarity).

ຄວາມແຕກຕ່າງພື້ນຖານກັບການຄົ້ນຫາດ້ວຍຄໍາຫຼັກ (Keyword Search)

ການຄົ້ນຫາດ້ວຍຄໍາຫຼັກແບບດັ້ງເດີມ (Sparse Model ເຊັ່ນ BM25) ຈະປະເມີນໂດຍກົງວ່າຄໍາທີ່ຢູ່ໃນ Query ປາກົດຢູ່ໃນເອກະສານຫຼືບໍ່. ຖ້າຄົ້ນຫາດ້ວຍຄໍາວ່າ "自動車" (ລົດຍົນ), ເອກະສານທີ່ມີຄໍາວ່າ "自動車" ຈະຖືກສະແດງຂຶ້ນມາ, ແຕ່ຈະບໍ່ສາມາດພົບຄໍາວ່າ "車" ຫຼື "クルマ" ໄດ້.

Semantic Search ສາມາດກ້າວຂ້າມຂໍ້ຈໍາກັດນີ້ໄດ້. ໂດຍການແປງຂໍ້ຄວາມໃຫ້ເປັນ Vector ທີ່ມີຫຼາຍຮ້ອຍຫາຫຼາຍພັນມິຕິດ້ວຍ Embedding Model ແລະດໍາເນີນການຄົ້ນຫາແບບໃກ້ຄຽງ (Nearest Neighbor Search) ໃນ Vector Database. ຕົວຢ່າງເຊັ່ນ: "自動車の燃費を改善したい" (ຢາກປັບປຸງການປະຢັດນໍ້າມັນຂອງລົດຍົນ) ແລະ "車のガソリン消費を減らす方法" (ວິທີຫຼຸດຜ່ອນການໃຊ້ນໍ້າມັນຂອງລົດ) ເຖິງວ່າຄໍາສັບຈະບໍ່ຄ່ອຍຊໍ້າກັນ ແຕ່ໃນພື້ນທີ່ຄວາມໝາຍ (Semantic Space) ມັນຈະຖືກຈັດວາງໄວ້ໃນຕໍາແໜ່ງທີ່ໃກ້ຄຽງກັນ ຈຶ່ງສາມາດຄົ້ນຫາພົບໄດ້.

ຈຸດແຂງ ແລະ ຈຸດອ່ອນ

Semantic Search ມີຄວາມໂດດເດັ່ນໃນການຄົ້ນຫາທີ່ເປັນການປ່ຽນຄໍາເວົ້າ, ຄໍາສັບທີ່ມີຄວາມໝາຍຄ້າຍຄືກັນ ຫຼື ລະດັບແນວຄິດ. ມັນສະແດງໃຫ້ເຫັນເຖິງອັດຕາການດຶງຂໍ້ມູນ (Recall) ທີ່ສູງສໍາລັບ Query ທີ່ມີການສະແດງອອກຕ່າງກັນແຕ່ມີເຈດຕະນາອັນດຽວກັນ ເຊັ່ນ: "退職手続きの流れ" (ຂັ້ນຕອນການລາອອກ) ແລະ "会社を辞めるときにやること" (ສິ່ງທີ່ຕ້ອງເຮັດເມື່ອລາອອກຈາກບໍລິສັດ). ດັ່ງນັ້ນ, ມັນຈຶ່ງເໝາະສົມກັບການຄົ້ນຫາໃນຖານຄວາມຮູ້ພາຍໃນບໍລິສັດ ຫຼື FAQ.

ໃນທາງກົງກັນຂ້າມ, ມັນມີຈຸດອ່ອນຕໍ່ກັບ Query ທີ່ຕ້ອງການຄວາມຖືກຕ້ອງຂອງຄໍາສັບແບບສົມບູນ ເຊັ່ນ: ເລກຮຸ່ນສິນຄ້າ (XR-990), ເລກກົດໝາຍ ຫຼື ໂຄ້ດໂປຣແກຣມ. ໃນ Embedding Space, "XR-990" ແລະ "XR-991" ອາດຈະຖືກຈັດວາງຢູ່ໃນຕໍາແໜ່ງທີ່ໃກ້ຄຽງກັນຫຼາຍ ຈົນບໍ່ສາມາດແຍກອອກຈາກກັນໄດ້. ເພື່ອແກ້ໄຂຈຸດອ່ອນນີ້, ການຄົ້ນຫາແບບ Hybrid ທີ່ປະສົມປະສານກັບ BM25 ຈຶ່ງຖືກນໍາໃຊ້ຢ່າງແຜ່ຫຼາຍໃນການປະຕິບັດງານຕົວຈິງ.

ບົດບາດໃນ RAG

ໃນ RAG (Retrieval-Augmented Generation), Semantic Search ຖືເປັນຫົວໃຈຫຼັກຂອງຂັ້ນຕອນການຄົ້ນຫາ. ມັນຈະປ່ຽນຄໍາຖາມຂອງຜູ້ໃຊ້ໃຫ້ເປັນ Vector, ດຶງຂໍ້ມູນ Chunk ທີ່ມີຄວາມກ່ຽວຂ້ອງທາງຄວາມໝາຍຈາກຖານຄວາມຮູ້ພາຍນອກ ແລ້ວສົ່ງໃຫ້ LLM. ໃນຂັ້ນຕອນນີ້, ຖ້າຄວາມຖືກຕ້ອງໃນການຄົ້ນຫາຕໍ່າ, LLM ຈະສ້າງຄໍາຕອບໂດຍອີງໃສ່ເອກະສານທີ່ບໍ່ກ່ຽວຂ້ອງ ເຊິ່ງນໍາໄປສູ່ການເກີດ Hallucination.

ຈຸດສໍາຄັນໃນການປະຕິບັດງານເພື່ອຍົກລະດັບຄຸນນະພາບການຄົ້ນຫາ ຄືການເລືອກ Embedding Model (ຕ້ອງຮອງຮັບຫຼາຍພາສາ ຫຼື ເໝາະສົມກັບ Domain ສະເພາະ) ແລະ ການອອກແບບ Chunk Size. ຈາກປະສົບການຂອງຜູ້ຂຽນ, ເຖິງຈະໃຊ້ Model ດຽວກັນ ແຕ່ພຽງແຕ່ປ່ຽນຂະໜາດ Chunk ຈາກ 256 Token ເປັນ 512 Token ກໍສາມາດເຮັດໃຫ້ຄ່າ Recall@10 ປ່ຽນແປງໄປຫຼາຍກວ່າ 10 ຈຸດ. ກົດເຫຼັກກໍຄື ຕ້ອງປະເມີນຜົນ Model ແລະ Chunk ໄປພ້ອມໆກັນ.

ການຄົ້ນຫາແບບຄວາມໝາຍ (Semantic Search)

ຄວາມແຕກຕ່າງພື້ນຖານກັບການຄົ້ນຫາດ້ວຍຄໍາຫຼັກ (Keyword Search)

ຈຸດແຂງ ແລະ ຈຸດອ່ອນ

ບົດບາດໃນ RAG

Let's discuss your needs

ຄຳສັບທີ່ກ່ຽວຂ້ອງ

A2A (ໂປຣໂຕຄໍ Agent-to-Agent)

AES-256

Agentic RAG

AI Observability (ການສັງເກດການ AI)

AI ROI (ຜົນຕອບແທນຈາກການລົງທຶນ AI)