การค้นหาเชิงความหมาย (Semantic Search)

การค้นหาเชิงความหมาย (Semantic Search)

Semantic Search คือวิธีการแสดงผลลัพธ์การค้นหาโดยอิงจาก "ความใกล้เคียงทางความหมาย" ระหว่างคำค้นหาและเอกสาร แทนที่จะใช้การจับคู่สตริงของคำหลัก (Keyword) วิธีนี้จะใช้ Embedding เพื่อแปลงข้อความเป็นเวกเตอร์ในปริภูมิเวกเตอร์ (Vector Space) และวัดระดับความเกี่ยวข้องด้วยฟังก์ชันระยะทาง เช่น Cosine Similarity

ความแตกต่างพื้นฐานจากการค้นหาด้วยคีย์เวิร์ด

การค้นหาด้วยคีย์เวิร์ดแบบดั้งเดิม (Sparse Model ซึ่งมี BM25 เป็นตัวแทน) จะประเมินโดยตรงว่าคำที่อยู่ใน Query ปรากฏอยู่ในเอกสารหรือไม่ หากค้นหาด้วยคำว่า "自動車" (รถยนต์) เอกสารที่มีคำว่า "自動車" จะถูกค้นพบ แต่จะไม่สามารถค้นพบคำว่า "車" (รถ) หรือ "クルマ" (รถยนต์) ได้

Semantic Search สามารถก้าวข้ามข้อจำกัดนี้ได้ โดยการแปลงข้อความเป็นเวกเตอร์หลายร้อยถึงหลายพันมิติด้วย Embedding Model และทำการค้นหาเพื่อนบ้านใกล้เคียง (Nearest Neighbor Search) บน Vector Database ตัวอย่างเช่น "自動車の燃費を改善したい" (ต้องการปรับปรุงอัตราการสิ้นเปลืองน้ำมันของรถยนต์) และ "車のガソリン消費を減らす方法" (วิธีลดการใช้เบนซินของรถ) แม้คำศัพท์จะแทบไม่ซ้ำกันเลย แต่ในพื้นที่ความหมาย (Semantic Space) ทั้งสองประโยคจะถูกแมปให้อยู่ในตำแหน่งที่ใกล้กัน จึงทำให้ค้นพบได้

จุดแข็งและจุดอ่อน

Semantic Search มีจุดเด่นในการค้นหาด้วยการใช้คำพ้องความหมาย การเปรียบเทียบ หรือระดับแนวคิด เช่นเดียวกับคำถามที่ว่า "退職手続きの流れ" (ขั้นตอนการลาออก) และ "会社を辞めるときにやること" (สิ่งที่ต้องทำเมื่อลาออกจากบริษัท) ซึ่งแม้การแสดงออกจะต่างกันแต่มีเจตนาเดียวกัน ระบบจะให้ค่า Recall ที่สูง จึงเหมาะอย่างยิ่งสำหรับการใช้งานกับฐานความรู้ภายในองค์กรหรือการค้นหา FAQ

ในทางกลับกัน Semantic Search จะไม่ค่อยมีประสิทธิภาพกับ Query ที่ต้องการความแม่นยำของคำศัพท์แบบ 100% เช่น รหัสรุ่นสินค้า (XR-990), เลขที่กฎหมาย หรือโค้ดโปรแกรม เนื่องจากใน Embedding Space นั้น "XR-990" และ "XR-991" อาจถูกแมปให้อยู่ในตำแหน่งที่ใกล้เคียงกันจนแยกไม่ออก เพื่อชดเชยจุดอ่อนนี้ ในทางปฏิบัติจึงนิยมใช้ Hybrid Search ที่ผสมผสานกับ BM25 อย่างแพร่หลาย

บทบาทใน RAG

ใน RAG (Retrieval-Augmented Generation) นั้น Semantic Search ถือเป็นหัวใจสำคัญของขั้นตอนการค้นหา โดยจะทำการแปลงคำถามของผู้ใช้ให้เป็นเวกเตอร์ เพื่อดึงข้อมูลส่วนที่เกี่ยวข้องในเชิงความหมายจากฐานความรู้ภายนอกมาส่งต่อให้ LLM ในขั้นตอนนี้ หากความแม่นยำในการค้นหาต่ำ LLM อาจสร้างคำตอบโดยอ้างอิงจากเอกสารที่ไม่เกี่ยวข้อง ซึ่งนำไปสู่ปัญหา Hallucination

เคล็ดลับในทางปฏิบัติเพื่อเพิ่มคุณภาพการค้นหาคือ การเลือก Embedding Model (ว่าจำเป็นต้องรองรับหลายภาษาหรือไม่ หรือต้องใช้โมเดลที่เฉพาะทางในโดเมนนั้นๆ หรือไม่) และการออกแบบ Chunk Size จากประสบการณ์ของผู้เขียน แม้จะใช้โมเดลเดิม แต่การเปลี่ยนขนาด Chunk จาก 256 Token เป็น 512 Token ก็สามารถทำให้ค่า Recall@10 เปลี่ยนไปได้มากกว่า 10 จุด ดังนั้นกฎเหล็กคือต้องประเมินโมเดลและขนาด Chunk ไปพร้อมกันเป็นชุดเสมอ

คำศัพท์ที่เกี่ยวข้อง

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)
AI สำหรับธุรกิจ

AI ROI (ผลตอบแทนจากการลงทุนด้าน AI)

AI ROI คือ ตัวชี้วัดที่ใช้วัดผลลัพธ์เชิงปริมาณของการปรับปรุงประสิทธิภาพการทำงานและการเพิ่มรายได้ที่ไ

AI พยากรณ์ความต้องการ (Demand Forecasting AI)
AI สำหรับธุรกิจ

AI พยากรณ์ความต้องการ (Demand Forecasting AI)

AI คาดการณ์ความต้องการ (Demand Forecasting AI) คือระบบที่วิเคราะห์ข้อมูลการขายในอดีตและปัจจัยภายนอกด

AI ออบเซอร์แวนบิลิตี้ (AI Observability)
AI สำหรับธุรกิจ

AI ออบเซอร์แวนบิลิตี้ (AI Observability)

แนวปฏิบัติในการดำเนินงานเพื่อติดตามและแสดงผลข้อมูลการทำงานของระบบ AI ที่ใช้งานจริงอย่างต่อเนื่อง ทั้

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)
AI สำหรับธุรกิจ

BPO (การจ้างภายนอกเพื่อดำเนินกระบวนการทางธุรกิจ)

BPO คือรูปแบบการ outsourcing ที่องค์กรมอบหมายกระบวนการทางธุรกิจเฉพาะด้านให้กับผู้ให้บริการภายนอกที่ม