Gemini Embedding 2 คือโมเดล embedding ที่รองรับ multimodal ซึ่งพัฒนาโดย Google สามารถแปลงข้อความ รูปภาพ วิดีโอ เสียง และเอกสารให้อยู่ในพื้นที่เวกเตอร์เดียวกันได้
แตกต่างจากโมเดล Embedding แบบดั้งเดิมที่รองรับเฉพาะข้อความ จุดเด่นที่สุดของโมเดลนี้คือการแมปสื่อ 5 ประเภทเข้าสู่พื้นที่ความหมายเดียวกัน ตัวอย่างเช่น คลิปเสียงของเสียงผิดปกติในโรงงานและเอกสารข้อความที่อธิบายขั้นตอนการรับมือกับความผิดปกติของอุปกรณ์ จะถูกจัดวางในตำแหน่งที่ใกล้เคียงกันบน Vector ด้วยวิธีนี้ การค้นหาข้ามโหมด (Modality) จึงสามารถทำได้ด้วยโมเดลเดียว ในสถานการณ์ที่ต้องการให้ RAG Pipeline ค้นหาความรู้ที่ไม่ใช่ข้อความด้วย จะช่วยลดความยุ่งยากในการเตรียมโมเดลแยกต่างหากสำหรับแต่ละ Modality ได้อย่างมาก Input Window รองรับ 8,192 Token ทำให้สามารถกำหนด Chunk Size ได้ค่อนข้างใหญ่ Output มีสูงสุด 3,072 มิติ แต่ด้วยโครงสร้าง Matryoshka สามารถลดขนาดลงเหลือ 1,536 (เน้นความสมดุล) หรือ 768 (เหมาะสำหรับการค้นหาที่ต้องการ Latency ต่ำ) ได้เช่นกัน นอกจากนี้ยังมีพารามิเตอร์สำหรับปรับแต่งตามงาน (Task Optimization) ที่ช่วยปรับคุณสมบัติทางคณิตศาสตร์ของ Vector ให้เหมาะกับการใช้งาน เช่น การค้นหาหรือการจำแนกประเภท รองรับภาษามากกว่า 100 ภาษาแบบ Native จึงเหมาะสำหรับ Multilingual RAG และการค้นหาแบบ Cross-lingual ด้วย มีการ Integration อย่างเป็นทางการกับ LangChain, LlamaIndex, Weaviate, Qdrant และ ChromaDB ทำให้สามารถนำไปใช้กับโครงสร้างพื้นฐาน Vector Database ที่มีอยู่ได้โดยตรง ราคาอยู่ที่ $0.25 ต่อ 1 ล้าน Token และมี Free Tier ให้ใช้งานด้วย สำหรับการย้ายจาก text-embedding-004 เดิมนั้น การเปลี่ยน Model ID ทำได้ง่าย แต่เนื่องจาก Vector Space แตกต่างกัน จึงจำเป็นต้องสร้าง Index ใหม่ทั้งหมด หากต้องการใช้งาน Multimodal Input อย่างจริงจัง จำเป็นต้องออกแบบโดยคำนึงถึงความละเอียดในการรวมรูปภาพและเสียงเข้าใน Index รวมถึงความสมดุลระหว่างความแม่นยำในการค้นหาและต้นทุนด้าน Storage


เอ็มเบดดิง (Embedding) คือเทคนิคที่แปลงข้อมูลไม่มีโครงสร้าง เช่น ข้อความ รูปภาพ และเสียง ให้เป็นเวกเตอร์ตัวเลขความยาวคงที่ โดยยังรักษาความสัมพันธ์เชิงความหมาย

RAG (Retrieval-Augmented Generation) คือเทคนิคที่ทำการค้นหาข้อมูลที่เกี่ยวข้องจากแหล่งความรู้ภายนอก แล้วนำผลลัพธ์ที่ได้มาเพิ่มเติมใน input ของ LLM เพื่อเพิ่มความแม่นยำและความทันสมัยของคำตอบ

Gherkin記法 (สัญกรณ์ Gherkin) คือรูปแบบโครงสร้างที่ใช้อธิบายพฤติกรรมของซอฟต์แวร์ในลักษณะภาษาธรรมชาติ โดยแบ่งออกเป็น 3 ขั้นตอน ได้แก่ Given (เงื่อนไขเริ่มต้น), When (การกระทำ) และ Then (ผลลัพธ์) สัญกรณ์นี้ถูกใช้อย่างแพร่หลายในฐานะรูปแบบมาตรฐานของไฟล์ .feature ที่เครื่องมือทดสอบอัตโนมัติ Cucumber ใช้อ่านข้อมูล
