ฐานข้อมูลเวกเตอร์ (Vector Database) คือฐานข้อมูลที่จัดเก็บข้อความและรูปภาพในรูปแบบเวกเตอร์ตัวเลข (Embedding) และให้บริการค้นหาความเร็วสูงตามความคล้ายคลึงเชิงความหมาย
ฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิมค้นหาด้วยการจับคู่คีย์เวิร์ด ค้นหา "สุนัข" จะได้แถวที่มีคำว่า "สุนัข" แต่จะพลาด "ลูกหมา" หรือ "น้องหมา" ฐานข้อมูลเวกเตอร์ทะลุข้อจำกัดนี้ โดยแปลงข้อความเป็นเวกเตอร์หลายร้อยถึงหลายพันมิติผ่านโมเดล Embedding แล้วค้นหาจาก "ระยะห่างเชิงความหมาย" กับคำค้น ความต้องการพุ่งสูงขึ้นพร้อมกับการแพร่หลายของ RAG (Retrieval-Augmented Generation) การส่งความรู้ภายนอกให้ LLM ต้องค้นหาเอกสารที่เกี่ยวข้องอย่างรวดเร็วก่อน ฐานข้อมูลเวกเตอร์ทำหน้าที่เป็นโครงสร้างพื้นฐานของชั้นค้นหานี้ การใช้งานหลักๆ ได้แก่ ฐานข้อมูลเฉพาะทางอย่าง Pinecone และ Weaviate รวมถึงส่วนขยายสำหรับฐานข้อมูลที่มีอยู่อย่าง pgvector ของ PostgreSQL ซึ่ง pgvector ถูกรวมเข้ากับ Supabase ด้วย ทำให้สามารถเพิ่ม Vector Search เข้าไปในกระบวนการ RDB ที่มีอยู่ได้ HNSW (Hierarchical Navigable Small World) ถูกใช้อย่างแพร่หลายเป็นอัลกอริทึมการทำดัชนี การออกแบบ Chunk Size และการใช้ Metadata Filter ร่วมด้วยคือจุดที่ประสบการณ์จริงสร้างความแตกต่าง


เอ็มเบดดิง (Embedding) คือเทคนิคที่แปลงข้อมูลไม่มีโครงสร้าง เช่น ข้อความ รูปภาพ และเสียง ให้เป็นเวกเตอร์ตัวเลขความยาวคงที่ โดยยังรักษาความสัมพันธ์เชิงความหมาย

การค้นหาแบบไฮบริด (Hybrid Search) คือเทคนิคที่ผสมผสานการค้นหาแบบคีย์เวิร์ด (เช่น BM25) กับการค้นหาเชิงเวกเตอร์ (Semantic Search) เพื่อใช้จุดแข็งของทั้งสองวิธีในการปรับปรุงความแม่นยำ

RAG (Retrieval-Augmented Generation) คือเทคนิคที่ทำการค้นหาข้อมูลที่เกี่ยวข้องจากแหล่งความรู้ภายนอก แล้วนำผลลัพธ์ที่ได้มาเพิ่มเติมใน input ของ LLM เพื่อเพิ่มความแม่นยำและความทันสมัยของคำตอบ


รายการตรวจสอบการปฏิบัติตามกฎหมาย PDPA ของไทยควบคู่กับการใช้งาน AI

ขนาด Chunk หมายถึง ขนาดของหน่วยการแบ่ง (จำนวน Token หรือจำนวนตัวอักษร) ที่ใช้ในการแบ่งเอกสารเพื่อจัดเก็บลงใน Vector Store ภายใน RAG Pipeline ถือเป็น Parameter สำคัญที่ส่งผลโดยตรงต่อความแม่นยำในการค้นหาและคุณภาพของคำตอบ