ฐานข้อมูลเวกเตอร์ (Vector Database) คือฐานข้อมูลที่จัดเก็บข้อความและรูปภาพในรูปแบบเวกเตอร์ตัวเลข (Embedding) และให้บริการค้นหาความเร็วสูงตามความคล้ายคลึงเชิงความหมาย
ฐานข้อมูลเชิงสัมพันธ์แบบดั้งเดิมค้นหาด้วยการจับคู่คีย์เวิร์ด ค้นหา "สุนัข" จะได้แถวที่มีคำว่า "สุนัข" แต่จะพลาด "ลูกหมา" หรือ "น้องหมา" ฐานข้อมูลเวกเตอร์ทะลุข้อจำกัดนี้ โดยแปลงข้อความเป็นเวกเตอร์หลายร้อยถึงหลายพันมิติผ่านโมเดล Embedding แล้วค้นหาจาก "ระยะห่างเชิงความหมาย" กับคำค้น
ความต้องการพุ่งสูงขึ้นพร้อมกับการแพร่หลายของ RAG (Retrieval-Augmented Generation) การส่งความรู้ภายนอกให้ LLM ต้องค้นหาเอกสารที่เกี่ยวข้องอย่างรวดเร็วก่อน ฐานข้อมูลเวกเตอร์ทำหน้าที่เป็นโครงสร้างพื้นฐานของชั้นค้นหานี้
การใช้งานหลักๆ ได้แก่ ฐานข้อมูลเฉพาะทางอย่าง Pinecone และ Weaviate รวมถึงส่วนขยายสำหรับฐานข้อมูลที่มีอยู่อย่าง pgvector ของ PostgreSQL ซึ่ง pgvector ถูกรวมเข้ากับ Supabase ด้วย ทำให้สามารถเพิ่ม Vector Search เข้าไปในกระบวนการ RDB ที่มีอยู่ได้
HNSW (Hierarchical Navigable Small World) ถูกใช้อย่างแพร่หลายเป็นอัลกอริทึมการทำดัชนี การออกแบบ Chunk Size และการใช้ Metadata Filter ร่วมด้วยคือจุดที่ประสบการณ์จริงสร้างความแตกต่าง


ข้อมูลสำหรับการฝึกอบรมที่สร้างขึ้นโดย AI ใช้เพื่อชดเชยการขาดแคลนข้อมูลจริง และนำไปใช้ในการเรียนรู้และประเมินผลโมเดลในขณะที่ปกป้องความเป็นส่วนตัว

เอ็มเบดดิง (Embedding) คือเทคนิคที่แปลงข้อมูลไม่มีโครงสร้าง เช่น ข้อความ รูปภาพ และเสียง ให้เป็นเวกเตอร์ตัวเลขความยาวคงที่ โดยยังรักษาความสัมพันธ์เชิงความหมาย

สถาปัตยกรรม RAG รุ่นถัดไปที่ผสมผสาน Knowledge Graph และการค้นหาแบบ Vector เข้าด้วยกัน โดยใช้ประโยชน์จากความสัมพันธ์ระหว่าง Entity เพื่อเพิ่มความแม่นยำในการค้นหา

รายการตรวจสอบการปฏิบัติตามกฎหมาย PDPA ของไทยควบคู่กับการใช้งาน AI

โมเดลข้อมูลที่แสดงเอนทิตีและความสัมพันธ์ในรูปแบบโครงสร้างกราฟ ใช้เพื่อเพิ่มความแม่นยำใน RAG และการค้นหาด้วย AI