เอ็มเบดดิง (Embedding) คือเทคนิคที่แปลงข้อมูลไม่มีโครงสร้าง เช่น ข้อความ รูปภาพ และเสียง ให้เป็นเวกเตอร์ตัวเลขความยาวคงที่ โดยยังรักษาความสัมพันธ์เชิงความหมาย
คอมพิวเตอร์ไม่สามารถตัดสินจากสตริงว่า "แอปเปิ้ล" กับ "ส้ม" มีความคล้ายกัน เอ็มเบดดิงแก้ปัญหานี้ เมื่อ "แอปเปิ้ล" ถูกแปลงเป็นเวกเตอร์อย่าง [0.23, -0.41, 0.87, ...] ที่มีหลายร้อยมิติ เวกเตอร์ของ "ส้ม" จะอยู่ใกล้ แต่ "รถยนต์" จะอยู่ไกล ความใกล้เคียงเชิงความหมายกลายเป็นความใกล้เคียงเชิงตัวเลข
เอ็มเบดดิงมีบทบาทหลักภายใน LLM เช่นกัน ข้อความอินพุตถูก Tokenize ก่อน จากนั้นแต่ละ Token จะถูกแปลงเป็นเวกเตอร์เอ็มเบดดิง Transformer ประมวลผลลำดับเวกเตอร์นี้เพื่อสร้างเอาต์พุต
ในทางปฏิบัติ เอ็มเบดดิงระดับประโยคถูกใช้บ่อยที่สุด โมเดลอย่าง text-embedding-3-small ของ OpenAI หรือ embed-v4 ของ Cohere แปลงประโยคทั้งหมดเป็นเวกเตอร์เดียว การจัดเก็บเวกเตอร์เหล่านี้ในฐานข้อมูลเวกเตอร์ทำให้สร้าง Semantic Search และชั้นค้นหาสำหรับ RAG ได้
ในการเลือกโมเดล จำนวนมิติ ภาษาที่รองรับ และต้นทุนเป็นเกณฑ์หลัก สำหรับภาษาไทยหรือภาษาญี่ปุ่น การทดสอบความแม่นยำของโมเดลหลายภาษาล่วงหน้าเป็นสิ่งสำคัญ


Gemini Embedding 2 คือโมเดล embedding ที่รองรับ multimodal ซึ่งพัฒนาโดย Google สามารถแปลงข้อความ รูปภาพ วิดีโอ เสียง และเอกสารให้อยู่ในพื้นที่เวกเตอร์เดียวกันได้

ข้อมูลสำหรับการฝึกอบรมที่สร้างขึ้นโดย AI ใช้เพื่อชดเชยการขาดแคลนข้อมูลจริง และนำไปใช้ในการเรียนรู้และประเมินผลโมเดลในขณะที่ปกป้องความเป็นส่วนตัว

ฐานข้อมูลเวกเตอร์ (Vector Database) คือฐานข้อมูลที่จัดเก็บข้อความและรูปภาพในรูปแบบเวกเตอร์ตัวเลข (Embedding) และให้บริการค้นหาความเร็วสูงตามความคล้ายคลึงเชิงความหมาย

ฐานข้อมูลเวกเตอร์คืออะไร? อธิบายครบจบ ตั้งแต่หลักการทำงาน เปรียบเทียบผลิตภัณฑ์หลัก ไปจนถึงการใช้งาน RAG

Dense Model (โมเดลแบบเชื่อมต่อหนาแน่น) คือสถาปัตยกรรมเครือข่ายประสาทเทียมที่ใช้พารามิเตอร์ทั้งหมดของโมเดลในการคำนวณระหว่างการอนุมาน ต่างจาก MoE (Mixture of Experts) ที่เปิดใช้งานเฉพาะบางส่วนของ Expert Dense Model จะให้ weight ทั้งหมดมีส่วนร่วมในการประมวลผลเสมอ ไม่ว่า input จะเป็นอะไรก็ตาม