เอ็มเบดดิง (Embedding) คืออะไร? อภิธานศัพท์ AI, DX & Security พร้อมแผนภาพ

เอ็มเบดดิง (Embedding) คือเทคนิคที่แปลงข้อมูลไม่มีโครงสร้าง เช่น ข้อความ รูปภาพ และเสียง ให้เป็นเวกเตอร์ตัวเลขความยาวคงที่ โดยยังรักษาความสัมพันธ์เชิงความหมาย

คอมพิวเตอร์ไม่สามารถตัดสินจากสตริงว่า "แอปเปิ้ล" กับ "ส้ม" มีความคล้ายกัน เอ็มเบดดิงแก้ปัญหานี้ เมื่อ "แอปเปิ้ล" ถูกแปลงเป็นเวกเตอร์อย่าง [0.23, -0.41, 0.87, ...] ที่มีหลายร้อยมิติ เวกเตอร์ของ "ส้ม" จะอยู่ใกล้ แต่ "รถยนต์" จะอยู่ไกล ความใกล้เคียงเชิงความหมายกลายเป็นความใกล้เคียงเชิงตัวเลข

เอ็มเบดดิงมีบทบาทหลักภายใน LLM เช่นกัน ข้อความอินพุตถูก Tokenize ก่อน จากนั้นแต่ละ Token จะถูกแปลงเป็นเวกเตอร์เอ็มเบดดิง Transformer ประมวลผลลำดับเวกเตอร์นี้เพื่อสร้างเอาต์พุต

ในทางปฏิบัติ เอ็มเบดดิงระดับประโยคถูกใช้บ่อยที่สุด โมเดลอย่าง text-embedding-3-small ของ OpenAI หรือ embed-v4 ของ Cohere แปลงประโยคทั้งหมดเป็นเวกเตอร์เดียว การจัดเก็บเวกเตอร์เหล่านี้ในฐานข้อมูลเวกเตอร์ทำให้สร้าง Semantic Search และชั้นค้นหาสำหรับ RAG ได้

ในการเลือกโมเดล จำนวนมิติ ภาษาที่รองรับ และต้นทุนเป็นเกณฑ์หลัก สำหรับภาษาไทยหรือภาษาญี่ปุ่น การทดสอบความแม่นยำของโมเดลหลายภาษาล่วงหน้าเป็นสิ่งสำคัญ

เอ็มเบดดิง (Embedding)

คำศัพท์ที่เกี่ยวข้อง

Gemini Embedding 2

ข้อมูลสังเคราะห์ (Synthetic Data)

ฐานข้อมูลเวกเตอร์

Let's discuss your needs

Dense Model (โมเดลแบบหนาแน่น)

ไวบ์โคดดิ้ง (Vibe Coding)