การค้นหาเชิงความหมาย (Semantic Search) คืออะไร? อภิธานศัพท์ AI, DX & Security พร้อมแผนภาพ

Semantic Search คือวิธีการแสดงผลลัพธ์การค้นหาโดยอิงจาก "ความใกล้เคียงทางความหมาย" ระหว่างคำค้นหาและเอกสาร แทนที่จะใช้การจับคู่สตริงของคำหลัก (Keyword) วิธีนี้จะใช้ Embedding เพื่อแปลงข้อความเป็นเวกเตอร์ในปริภูมิเวกเตอร์ (Vector Space) และวัดระดับความเกี่ยวข้องด้วยฟังก์ชันระยะทาง เช่น Cosine Similarity

ความแตกต่างพื้นฐานจากการค้นหาด้วยคีย์เวิร์ด

การค้นหาด้วยคีย์เวิร์ดแบบดั้งเดิม (Sparse Model ซึ่งมี BM25 เป็นตัวแทน) จะประเมินโดยตรงว่าคำที่อยู่ใน Query ปรากฏอยู่ในเอกสารหรือไม่ หากค้นหาด้วยคำว่า "自動車" (รถยนต์) เอกสารที่มีคำว่า "自動車" จะถูกค้นพบ แต่จะไม่สามารถค้นพบคำว่า "車" (รถ) หรือ "クルマ" (รถยนต์) ได้

Semantic Search สามารถก้าวข้ามข้อจำกัดนี้ได้ โดยการแปลงข้อความเป็นเวกเตอร์หลายร้อยถึงหลายพันมิติด้วย Embedding Model และทำการค้นหาเพื่อนบ้านใกล้เคียง (Nearest Neighbor Search) บน Vector Database ตัวอย่างเช่น "自動車の燃費を改善したい" (ต้องการปรับปรุงอัตราการสิ้นเปลืองน้ำมันของรถยนต์) และ "車のガソリン消費を減らす方法" (วิธีลดการใช้เบนซินของรถ) แม้คำศัพท์จะแทบไม่ซ้ำกันเลย แต่ในพื้นที่ความหมาย (Semantic Space) ทั้งสองประโยคจะถูกแมปให้อยู่ในตำแหน่งที่ใกล้กัน จึงทำให้ค้นพบได้

จุดแข็งและจุดอ่อน

Semantic Search มีจุดเด่นในการค้นหาด้วยการใช้คำพ้องความหมาย การเปรียบเทียบ หรือระดับแนวคิด เช่นเดียวกับคำถามที่ว่า "退職手続きの流れ" (ขั้นตอนการลาออก) และ "会社を辞めるときにやること" (สิ่งที่ต้องทำเมื่อลาออกจากบริษัท) ซึ่งแม้การแสดงออกจะต่างกันแต่มีเจตนาเดียวกัน ระบบจะให้ค่า Recall ที่สูง จึงเหมาะอย่างยิ่งสำหรับการใช้งานกับฐานความรู้ภายในองค์กรหรือการค้นหา FAQ

ในทางกลับกัน Semantic Search จะไม่ค่อยมีประสิทธิภาพกับ Query ที่ต้องการความแม่นยำของคำศัพท์แบบ 100% เช่น รหัสรุ่นสินค้า (XR-990), เลขที่กฎหมาย หรือโค้ดโปรแกรม เนื่องจากใน Embedding Space นั้น "XR-990" และ "XR-991" อาจถูกแมปให้อยู่ในตำแหน่งที่ใกล้เคียงกันจนแยกไม่ออก เพื่อชดเชยจุดอ่อนนี้ ในทางปฏิบัติจึงนิยมใช้ Hybrid Search ที่ผสมผสานกับ BM25 อย่างแพร่หลาย

บทบาทใน RAG

ใน RAG (Retrieval-Augmented Generation) นั้น Semantic Search ถือเป็นหัวใจสำคัญของขั้นตอนการค้นหา โดยจะทำการแปลงคำถามของผู้ใช้ให้เป็นเวกเตอร์ เพื่อดึงข้อมูลส่วนที่เกี่ยวข้องในเชิงความหมายจากฐานความรู้ภายนอกมาส่งต่อให้ LLM ในขั้นตอนนี้ หากความแม่นยำในการค้นหาต่ำ LLM อาจสร้างคำตอบโดยอ้างอิงจากเอกสารที่ไม่เกี่ยวข้อง ซึ่งนำไปสู่ปัญหา Hallucination

เคล็ดลับในทางปฏิบัติเพื่อเพิ่มคุณภาพการค้นหาคือ การเลือก Embedding Model (ว่าจำเป็นต้องรองรับหลายภาษาหรือไม่ หรือต้องใช้โมเดลที่เฉพาะทางในโดเมนนั้นๆ หรือไม่) และการออกแบบ Chunk Size จากประสบการณ์ของผู้เขียน แม้จะใช้โมเดลเดิม แต่การเปลี่ยนขนาด Chunk จาก 256 Token เป็น 512 Token ก็สามารถทำให้ค่า Recall@10 เปลี่ยนไปได้มากกว่า 10 จุด ดังนั้นกฎเหล็กคือต้องประเมินโมเดลและขนาด Chunk ไปพร้อมกันเป็นชุดเสมอ

การค้นหาเชิงความหมาย (Semantic Search)

ความแตกต่างพื้นฐานจากการค้นหาด้วยคีย์เวิร์ด

จุดแข็งและจุดอ่อน

บทบาทใน RAG

Let's discuss your needs

คำศัพท์ที่เกี่ยวข้อง

A2A (โปรโตคอลตัวแทนต่อตัวแทน)

AES-256

Agentic RAG

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)

AI TRiSM (การบริหารจัดการความเชื่อมั่น ความเสี่ยง และความปลอดภัยของ AI)