Gemini Embedding 2

Gemini Embedding 2

Gemini Embedding 2 คือโมเดล embedding ที่รองรับ multimodal ซึ่งพัฒนาโดย Google สามารถแปลงข้อความ รูปภาพ วิดีโอ เสียง และเอกสารให้อยู่ในพื้นที่เวกเตอร์เดียวกันได้

แตกต่างจากโมเดล Embedding แบบดั้งเดิมที่รองรับเฉพาะข้อความ จุดเด่นที่สุดของโมเดลนี้คือการแมปสื่อ 5 ประเภทเข้าสู่พื้นที่ความหมายเดียวกัน ตัวอย่างเช่น คลิปเสียงของเสียงผิดปกติในโรงงานและเอกสารข้อความที่อธิบายขั้นตอนการรับมือกับความผิดปกติของอุปกรณ์ จะถูกจัดวางในตำแหน่งที่ใกล้เคียงกันบน Vector ด้วยวิธีนี้ การค้นหาข้ามโหมด (Modality) จึงสามารถทำได้ด้วยโมเดลเดียว ในสถานการณ์ที่ต้องการให้ RAG Pipeline ค้นหาความรู้ที่ไม่ใช่ข้อความด้วย จะช่วยลดความยุ่งยากในการเตรียมโมเดลแยกต่างหากสำหรับแต่ละ Modality ได้อย่างมาก

Input Window รองรับ 8,192 Token ทำให้สามารถกำหนด Chunk Size ได้ค่อนข้างใหญ่ Output มีสูงสุด 3,072 มิติ แต่ด้วยโครงสร้าง Matryoshka สามารถลดขนาดลงเหลือ 1,536 (เน้นความสมดุล) หรือ 768 (เหมาะสำหรับการค้นหาที่ต้องการ Latency ต่ำ) ได้เช่นกัน นอกจากนี้ยังมีพารามิเตอร์สำหรับปรับแต่งตามงาน (Task Optimization) ที่ช่วยปรับคุณสมบัติทางคณิตศาสตร์ของ Vector ให้เหมาะกับการใช้งาน เช่น การค้นหาหรือการจำแนกประเภท

รองรับภาษามากกว่า 100 ภาษาแบบ Native จึงเหมาะสำหรับ Multilingual RAG และการค้นหาแบบ Cross-lingual ด้วย มีการ Integration อย่างเป็นทางการกับ LangChain, LlamaIndex, Weaviate, Qdrant และ ChromaDB ทำให้สามารถนำไปใช้กับโครงสร้างพื้นฐาน Vector Database ที่มีอยู่ได้โดยตรง

ราคาอยู่ที่ $0.25 ต่อ 1 ล้าน Token และมี Free Tier ให้ใช้งานด้วย สำหรับการย้ายจาก text-embedding-004 เดิมนั้น การเปลี่ยน Model ID ทำได้ง่าย แต่เนื่องจาก Vector Space แตกต่างกัน จึงจำเป็นต้องสร้าง Index ใหม่ทั้งหมด หากต้องการใช้งาน Multimodal Input อย่างจริงจัง จำเป็นต้องออกแบบโดยคำนึงถึงความละเอียดในการรวมรูปภาพและเสียงเข้าใน Index รวมถึงความสมดุลระหว่างความแม่นยำในการค้นหาและต้นทุนด้าน Storage

คำศัพท์ที่เกี่ยวข้อง