2026年4月15日に開催したセミナー「和菓子ECサイトの検索で考えるマルチモーダル埋め込みの威力」の資料を、SlideShare に公開しました。
https://www.slideshare.net/slideshow/ec-gemini-embedding-3/287035452
以下、スライドの内容をダイジェストでお届けします。

マルチモーダル埋め込みとは何か?
テキストだけでなく、画像も同じ「意味のベクトル空間」に変換できる埋め込みモデルです。
従来のテキスト埋め込みは文字列しか扱えませんでしたが、マルチモーダル埋め込みでは「商品説明のテキスト」と「商品写真」を同じ3,072次元の空間に配置し、コサイン類似度で比較できます。今回のセミナーでは、Googleが公開したばかりの gemini-embedding-2-preview を使い、和菓子ECサイトという具体的なシナリオで検証しました。
例題:和菓子ECサイトの検索
あなたは和菓子専門ECサイトの担当者です。桜餅を7品登録しましたが、商品名欄はすべて「桜餅」と入れてしまいました。
- A1〜A4:道明寺(関西風、つぶつぶした食感)4品
- B1〜B3:長命寺(関東風、クレープ状の皮)3品
ある日、お客様が「道明寺粉のつぶつぶした桜餅」と検索します。この検索、ヒットするでしょうか?
3段階で検証する
セミナーでは、同じ和菓子12品のデータを3つのステージで用意し、10個のクエリで比較しました。
| ステージ | 何をしたか |
|---|---|
| Stage 1 | 商品名だけ登録「桜餅」 |
| Stage 2 | 色・形・質感など商品説明を追記 |
| Stage 3 | 商品写真もインデックスに投入 |
見るポイントは「 精度が何%上がったか」ではなく、「できない」が「できる」に変わる瞬間と、その仕組みです。
検証から見えた5つの仕組み
1. 同一テキストは区別不能 — Stage 1 で A系(道明寺)と B系(長命寺)は全品 0.847 の完全同率。同じ文字列は同じベクトルになるため、どれだけ賢いモデルでも原理的に分けられません。
2. 語彙の重なりがスコアを動かす — Stage 2 で「つぶつぶした道明寺粉」と商品説明に書くだけで、クエリと語彙が直接重なり、A系が上位に分離しました(ギャップ 0.048)。モデルもクエリも変えず、コーパスのテキストを書き足しただけです。
3. 世界知識による連想 — 「茶色い和菓子」というクエリに対し、コーパスに「茶色い」の一語もないのに、どら焼き・みたらし団子が上位にヒットしました。モデルが学習データから「どら焼き→茶色い焼き菓子」という連想を獲得しているためです。
4. 画像は視覚的特徴でベクトル化される — Stage 3 では、A1(濃いピンクの道明寺)の画像で検索すると、A2(薄ピンクの道明寺)が最も近いと判定されました。色・形・質感・構図がそのままベクトルに変換されます。
5. 画像検索は構図に引きずられる — A4(道明寺の断面写真)で検索すると、B3(長命寺の断面)が A3(道明寺の正面写真)より上位に来ました。モデルにとっては「断面写真同士」の方が「道明寺同士」より近いのです。画像検索は「同じ商品か」ではなく「見た目が似ているか」で動くため、ECで別アングルを確実にヒットさせるには メタデータとの組み合わせが必要です。
画像+テキストの複合クエリ
マルチモーダル埋め込みの真骨頂は、画像とテキストを同時に投げられることです。
「A1の画像 + これに似てもっと白いもの」というクエリを投げると、画像A1のベクトル(濃いピンク・丸い・つぶつぶ)とテキスト「もっと白い」のベクトルが組み合わさり、A3(白っぽい道明寺)が3位でヒットしました。テキストだけでは全品同率だった世界が、マルチモーダルで一気に開けます。
EC担当者として、何をすべきか
| やりたいこと | 必要なアクション |
|---|---|
| 商品名で探させたい | 商品名を正しく登録するだけで十分 |
| 属性で絞り込ませたい | 商品説明に色・形・質感を明記する |
| サブカテゴリを区別させたい | 商品説明に差分を書く(書かなければ原理的に不可能) |
| 見た目が似た商品を提案したい | 商品写真を検索インデックスに入れる |
| 「こういうのが欲しい」に応えたい | 画像+テキストの複合検索を導入する |
まとめ
- マルチモーダル埋め込みは、テキストと画像を同じベクトル空間に配置する技術。
gemini-embedding-2-previewで今日から試せる - 同じ商品名で登録された商品は、モデルが何であれ原理的に区別できない。商品説明を書くことが検索精度の土台
- テキストで超えられない壁は画像で突破できる が、画像検索は「似て見えるか」で動くため、メタデータとの組み合わせが前提
- 商品写真がすでにあるなら、それは最強の検索インデックス。使わない手はない

