Gemini Embedding 2 とは、Google が開発したマルチモーダル対応のエンベディングモデルであり、テキスト・画像・動画・音声・ドキュメントを単一のベクトル空間に変換できる。
テキストだけを扱う従来のエンベディングモデルとは異なり、5 種類のメディアを 1 つの意味空間にマッピングする点が最大の特徴。たとえば工場の異常音の音声クリップと設備異常の対応手順というテキストドキュメントが、ベクトル上で近い位置に配置される——といった具合に、モダリティをまたいだ検索が単一モデルで完結する。RAG パイプラインでテキスト以外のナレッジも検索対象にしたい場面で、モダリティごとに別モデルを用意する手間が大幅に減る。
入力ウィンドウは 8,192 トークンで、チャンクサイズを大きめに取れる。出力は最大 3,072 次元だが、Matryoshka 構造により 1,536(バランス重視)・768(低レイテンシ検索向き)にも縮小可能。タスク最適化パラメータも備えており、検索・分類などの用途に応じてベクトルの数学的特性を調整できる。
100 以上の言語をネイティブにサポートするため、多言語 RAG やクロスリンガル検索にも向く。LangChain・LlamaIndex・Weaviate・Qdrant・ChromaDB との統合が公式に提供されており、既存のベクトルデータベース基盤にそのまま組み込める。料金は 100 万トークンあたり $0.25 で、無料枠も用意されている。
従来の text-embedding-004 からの移行ではモデル ID の差し替え自体は容易だが、ベクトル空間が異なるため既存インデックスの再構築が必要になる。マルチモーダル入力を本格活用する場合は、画像や音声をどの粒度でインデックスに含めるか、検索精度とストレージコストのバランスを踏まえた設計が求められる。


ローカル LLM / SLM 導入比較 — クラウド API に依存しない AI 活用
バイブコーディング(Vibe Coding)とは、開発者が自然言語で意図を伝え、AI がコードの生成・修正を担う開発スタイルの総称であり、2025 年の「Word of the Year」に選ばれた。