土曜日, 8月 23, 2025
土曜日, 8月 23, 2025
- Advertisment -
ホームニューステックニュースGoogleのVirtual Try-On API登場までのバーチャル試着を解説する

GoogleのVirtual Try-On API登場までのバーチャル試着を解説する


ZOZOTOWN を始めとしたファッションにおける、オンラインショッピングの課題として常に挙げられてきたのが「実際に着てみないと分からない」という課題です。この課題に対し、ユーザーは自分の写真をアップロードするだけでデジタルな服を擬似的に試着し画面上で確認ができる、いわゆるバーチャル試着技術が近年話題となっています。バーチャル試着は、英語表記で Virtual Try-On(略称: VTO または VTON)と表現します。これにより、ユーザーは「この服、自分に似合うかな?」「サイズ感はどうだろう?」といった不安を解消でき、EC サイト側は返品率の低下や満足度向上につながるなどのメリットがあります。

virtual_try_on_sample
バーチャル試着の構成イメージ

Google のバーチャル試着の取り組みについては、2023年6月に 公式ブログで公表 していました。そこから、2年後の2025年5月には、Google I/O’25にて「Try it On」という完成形プロダクトとして登場 し皆がその完成度の高さを目の当たりにしたと思います。そして、そこからわずか3ヶ月後の8月には Imagen API のサブセットとして Virtual Try-On API という形で、このバーチャル試着が API として公開されました。

これまでバーチャル試着の AI モデルを作成するには、人物画像とポージングのバリエーション、多様な角度から撮影された服の画像などの膨大な学習データの準備と、それを学習・推論する高性能なマシンが必要でした。また、2017年の Transformer をきっかけに拡散モデルが VTON の世界にも持ち込まれたことでブレークスルーが発生し、これまでも たくさんの OSS モデルが発表 されていますが、どれも非商用ライセンスのみでアカデミック用途に限定されていました。

そして今回、Google が API として公開したことで、誰でも簡単にバーチャル試着を実現できるようになりました。バーチャル試着がついに民主化されたのです。ファッション業界や、この技術を競争優位性として謳っていたスタートアップには大きな痛手となるでしょう。

本記事では、Virtual Try-On のトレンドや技術的背景から順を追って解説します。Virtual Try-On API を実際に試してみて、出力の精度や生成速度、さらには Imagen や Veo の Google 技術を組み合わせた実際のシナリオを想定し、この技術的変革が与える影響について見ていきます。API については Virtual Try-On APIを試す 以降に記載しておりますので、周辺情報が不要な方はそちらまでジャンプしてください。

2025年5月に、ショッピング検索結果の衣服をバーチャルに試着できるプロダクトが Google から発表されました。2025年8月現在、このプロダクトの利用は米国のみに限定されています。ユーザーは自分の全身写真をアップロードするだけで EC の服を擬似的に試着できます。

try_it_on_image
Here’s how to use Google’s new “try it on” feature. より引用

https://blog.google/products/shopping/google-shopping-ai-mode-virtual-try-on-update/

もう少し詳細に見ていくと、ユーザーがアップロードした全身の1枚写真から AI がユーザーの写真に衣服をレンダリングして重ねます。内部的には、ファッションに特化してトレーニングしたカスタム画像生成モデルが使用されており、生地の物理特性(ドレープ、折り目、伸縮など)を考慮して、その服をユーザーが着た場合にどう見えるかをリアルにレンダリングしています。これだけでもすごいのですが、デモでは試着して気に入った衣服について「track price」(価格追跡)をし、購入までつなげる一連のユーザー体験を訴求していました。Google はプロダクト化するのがいつも上手ですよね。

こちらの Keynote の後半に Try it On のデモがあります。ユーザーフローを分解するとざっくり以下の流れとなっています。

https://www.youtube.com/live/o8NiE3XMPrM?si=UsCl6hY_VuZZ8Nue&t=7757

Try it On による検索から購入まで一気通貫した UX

  1. Google 検索 AI Mode で夏服を探す
  2. 試したい服のサイズとカラーを選択
  3. 「Try it on」ボタンでカメラロールから自分の写真をアップロード
  4. 仮想試着
  5. 「Track Price」ボタンで購入可能な金額レンジを設定すると、AI エージェントが Web 上から指定の価格になると引っ張ってくる
  6. PUSH 通知でユーザーへ通知
  7. PUSH 通知からそのまま Google Pay で支払い

まだ日本国内では利用できませんが、Google 検索の新しい AI Mode も含めて、これまでの検索体験、オンラインショッピングで体験が大きく変わりそうで楽しみです。

expo_1

2025年8月5日、6日の2日間に渡り東京ビッグサイトにて開催された Google Cloud Next Tokyo’25でも、このバーチャル試着の展示ブースがあり盛況でした。ブース担当者と会話していた際には、「年内には Vertex AI に Imagen や Veo と同じような API で出るかも」という話を伺ったのですが、蓋を開けてみれば6日に Preview 版の API として登場したので、恐ろしいスピード感です(内部で情報は持っていたのかもしれません)。

個人的に特に面白かったのが、ウェディングでの活用シーンです。一般的に EC サイトなどファッション文脈で語られることの多い VTON ですが、ウェディングドレスのような「試着するのに労力や時間がかかる」用途に最適です。ブライダル担当者もブースに来ていたみたいですが、現在のオペレーションでは1時間に1組で2,3着試すのが限界だそうです。VTON を使い画面上でバーチャル試着した後、本当に気に入ったドレスのみ袖を通すことで、より選択肢も増え楽しいドレス選び体験になります。
expo_2
展示のスライドより抜粋

これまで Google の Try it On やビジネス利用シーンを見てきましたが、本セクションでは技術的な側面を解説します。

VTON 自体は機械学習の業界では2010年代から存在している比較的歴史の長い研究分野です。従来は GAN(敵対的生成ネットワーク)を使ったアプローチが主流となっていましたが、拡散モデル(Diffusion Model) の登場によりブレークスルーが発生し、最近の VTON モデルではこの拡散モデルをベースとした研究が主流となっています。以下の図の赤文字が拡散モデルベースの VTON モデルです。

timeline_showing_the_evolution_of_vton
VTON研究のタイムライン: Image-Based Virtual Try-On: A Survey より引用

上記は画像ベースのアプローチですが、3D など他のアプローチなどは年代ごとに、以下のリポジトリにもまとめられています。

https://github.com/minar09/awesome-virtual-try-on

VTONの基本的なパイプライン

VTON は、「人物の写真」と「服の写真」を合成して、試着後のイメージを生成する技術ですが、ご想像の通り単に服の画像を人物画像の上に貼り付けているわけではありません。単純な切り貼りではなく、AI が人物の体型やポーズを理解し、それに合わせて服を変形させて合成しています。実際は複雑な処理がなされていますが、全体的な流れは次の3ステップです。

  1. Preprocessing: 事前処理で人・服情報を解析し、人物から骨格(ポーズ)や体型を、服から柄や質感といった特徴を抽出
  2. Warping: 服を人物のポーズに合わせて変形
  3. Image Generation: 変形した服を人物へ合成

入力はシンプルに以下を想定しています。

  • 人物画像 (Person Image): 試着をしたい人の写真
  • 服画像 (Garment Image): 着せたい服の写真

1. 事前処理 (Preprocessing)


Person Representation Strategiesより引用

  • 人物情報の抽出 (Human Representation)
    • 「体型」「ポーズ」「今着ている服」などの情報を読み取ります。その後、人間の体をパーツ(頭、腕、胴体など)に分解します。デジタルな着せ替え人形を作るようなイメージです。
    • 試着対象となる人物の画像を単なるピクセルの集まりとしてではなく、腕、脚、胴体といったセマンティックなパーツ(意味のある部分)に分割し、その3次元的な形状や姿勢を正確に理解している点がポイントです。
  • 服情報の抽出(Garment Representation)
    • 服の輪郭を背景から正確に切り出し、襟、袖、裾といったパーツを認識します。さらに、ロゴや柄、生地の模様といった重要なデザイン要素も抽出します。
    • この工程があるおかげで、後の変形プロセスで服の柄が不自然に伸びたり、ロゴが意図しない場所に移動したりすることを防ぎ、リアルな合成が可能になります。

2. 変形 (Warping)


Thin Plate Spline (TPS)の図より引用

  • 着せたい服の画像を、先ほど抽出した人物情報の体型やポーズに合わせて、ぐにゃっとデジタル的に変形させます(ワーピング)。例えば、腕を曲げているなら、服の袖もそれに合わせて自然に曲がるように調整します。
  • AI が大量のデータから「服が体の形にどうフィットするか」を学習し、より複雑でリアルな変形を可能にするアプローチなどがあります。

3. 画像生成 (Image Generation)

  • 最後に、変形させた服を人間の体へ合成します。このとき、服の柄や質感(テクスチャ)をリアルに再現し、元々着ていた服を自然に隠して、影などを付け加えて完成です。
  • バーチャル試着では、人物の画像と服の画像という別々の情報を元に、「その人がその服を着ている」という、実際には存在しない新しい画像をリアルに生成する役割を担います。

画像の合成には GAN や拡散モデルを使って実現しています(前述の通り、昨今は拡散モデルが主流)。平たく言えば、拡散モデル自体は GAN では実現できない高忠実度な画像を生成できます。服の質感や素材などのディテールの再現、テクスチャ保持が最重要課題である VTON にとっては最適なユースケースです。

拡散モデルの基本構造

拡散モデルは前述の通り、VTON の画像生成工程で利用されます。拡散モデルでは、画像にノイズを与える工程(Forward)とノイズから復元する工程(Reverse)に分けられます。学習段階では Forward プロセスで少しずつノイズを与え、その工程を学習します。その後、Reverse プロセスで「このノイズを取り除きけば少しだけ元の絵に近づくはずだ」という予測を繰り返しながらノイズを少しずつ除去していきます。


拡散モデルのイメージ: Deep Learning in Virtual Try-On: A Comprehensive Survey より引用

この一連の工程を繰り返すことでトレーニングされた AI モデルを使うことで、推論時には Reverse プロセスのみでランダムノイズの塊から画像を生成します。

2023年は、この拡散モデルを活用した研究が発表され VTON における転換点となりました。この年、トップカンファレンスで発表された次の2つの論文が、拡散モデルを VTON の分野に本格的に導入し、その後の研究の方向性を事実上決定づけています。

LaDI-VTON

1つ目が LaDI-VTON(Latent Diffusion Textual-Inversion Enhanced Virtual Try-On)です。それまで GAN が主流だった VTON の世界に、拡散モデルの圧倒的な生成品質を持ち込み、新たなスタンダードを確立した基礎研究です。

https://github.com/miccunifi/ladi-vton

Stable Diffusion をベースとした潜在拡散モデルを VTON に応用し、GAN では実現困難だった高解像度・高品質な画像生成を可能にしました。服の質感やディテールの保持において飛躍的な向上を実現しています。

TryOnDiffusion

2つ目が Google Research により発表された TryOnDiffusion です。TryOnDiffusion は、LaDI-VTON と同様に2023年に発表された重要な研究で、並行して拡散モデルを VTON に導入した先駆的な取り組みです。

https://github.com/fashn-AI/tryondiffusion

人物画像と服画像を統合的に処理する拡散モデルベースの手法で、エンドツーエンドでの学習により、より自然な試着結果を実現しています。
今回登場した Virtual Try-On API の裏側にどの VTON モデルが使われているかは明言されていませんが、おそらくこの TryOnDiffusion が使われていると推察しています(Try it On も裏では同じ API を利用していると思うので同様)。

VTONの進化

その後、拡散モデルベースの VTON は前述の研究結果を受けて進化を辿っていきます。例えば、 LaDI-VTON などの基本構造を発展させ、実世界の多様な写真(in-the-wild)での性能を大きく向上させた IDM-VTON や複数の衣服カテゴリに対応しつつ、モデルのパラメータを削減し効率化を図った CatVTON などです。他にもたくさんの応用 VTON モデルが存在しますが今回は割愛します。

周辺調査は以前スクラップにもまとめていますので、興味があればご参照ください。

https://zenn.dev/tsuruo/scraps/3018da02d4c5f3

商用ライセンス問題

多くの VTON モデルが登場し OSS として公開されましたが、事業活用には課題がありました。前述した IDM-VTON や CatVTON 含めて、どれも Creative Commons など非商用ライセンスのみでアカデミック用途に限定されていたことが理由です。最近では、2025年5月に公開された MagicTryOn では、リポジトリに公開されている推論モデルは Apache ライセンスですが、学習に利用するデータは Creative Commons BY-NC-SA 4.0で non-commercial と明記されています。

All the materials, including code, checkpoints, and demo, are made available under the Creative Commons BY-NC-SA 4.0 license. You are free to copy, redistribute, remix, transform, and build upon the project for non-commercial purposes, as long as you give appropriate credit and distribute your contributions under the same license.

他にも Meta のインターンである開発者によって2025年に登場した Leffa も非常に高性能でリポジトリには、MIT ライセンスとの表記がありますが、学習に利用している VITON-HD は CC ライセンスであり Attribution-NonCommercial 4.0 Internationalと明記されています。

アプリケーションとして利用するのは推論部分が大半だと思いますが、その元となっているデータが非商用だとすると、例えリポジトリが OSS だったとしても商用利用はできない、というのが私の見解です。つまり、技術としては発達してはいるものの実プロダクトとしてユーザーに提供するには相応のハードルがありました。

バーチャル試着のサービス化

一方で、日本国内では、2025年5月に正式版アプリをリリースした NewLook がバーチャル試着のアプリとしてユーザーに提供しています。海外では元 Meta および Apple の Dorian Dargan と、元 Google DeepMind の Jim Winkens によって共同設立され莫大な資金調達をしている Doji や、NVIDIA も出資する新進気鋭のシリコンバレー企業で2025年7月に D&D で Word ローブのアイテムから仮想試着ができる「The Studio」をローンチした Mirror Mirror AI などが出てきていますが、彼らがどのモデルをベースに開発をして自社モデルとして提供しているのかなどは公開されておりません。

ビッグテックによるライセンス問題の解消

Google だけではなく実は AWS からも、2025年7月に Amazon Nova Canvas の新機能として VTON が利用できるようなっています。

https://aws.amazon.com/jp/blogs/news/amazon-nova-canvas-update-virtual-try-on-and-style-options-now-available/

私は AWS にあまり明るくなく、Nova Canvas も使ったことがないのですが、ドキュメントを読む限り Google の VTON API と同等の機能を有していそうです。自社サービスを AWS で構築していて VTON を採用したいケースでは、こちらを利用してみるのも良いかもしれません。

こうしたビッグテックによる API 化はもちろん商用利用を前提としたものなので、前述したライセンス問題を一気に解消してしまいました。

前置きが長くなりましたが、早速 Google が公開した Virtual Try-On API を試していきます。Vertex AI の Imagen API の一部として提供されているため、Google Cloud のセットアップさえできればすぐに利用できます。モデルバージョンは virtual-try-on-preview-08-04 です。ドキュメントは以下です。

https://cloud.google.com/vertex-ai/generative-ai/docs/model-reference/virtual-try-on-api

ドキュメントのとおりですが、HTTP リクエストまたは SDK でアクセスができます。リクエストパラメータに人と服の base64エンコードされた画像を指定するだけで、バーチャル試着した画像が出力されます。

HTTP method and URL

POST https://REGION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/REGION/publishers/google/models/virtual-try-on-preview-08-04:predict

Request JSON body

{
  "instances": [
    {
      "personImage": {
        "image": {
          "bytesBase64Encoded": "BASE64_PERSON_IMAGE"
        }
      },
      "productImages": [
        {
          "image": {
            "bytesBase64Encoded": "BASE64_PRODUCT_IMAGE"
          }
        }
      ]
    }
  ],
}

また、base64エンコードではバイナリサイズ大きくなってしまいますが、Cloud Storage 経由での読み込み・書き込みも対応しているため、基本的にはこちらを利用するのが良いでしょう。

1枚の画像生成に大体30秒程度かかります。

vto_api_response_time
PostmanのmacOSデスクトップアプリから計測した様子

シナリオとして「近々同僚の結婚式を控えているので、娘の衣装選びをしたい」というケースを想定して、以下のインプットで出力してみました。

try_on_api_sample
VTON APIでの出力結果

Google AI はセーフティ基準が厳格ですが、パラメータに personGeneration が用意されており、allow_all 指定することで子どもも対象にできます。さらに、服画像を見てもらうとわかりますが、服意外のものが映り込んでいてもしっかり認識され除外されていることが分かります。

Cloud Storageから入力画像を取得する場合

API の出力結果を Cloud Storage(以下、GCS)に書き込む際には、API の実行ユーザーの権限に依存します。読み込みに際には、Imagen API のサービスアカウントである [email protected]storage.objects.getstorage.objects.list のパーミションをもたせる必要があります。 Storage オブジェクト閲覧者 権限を付与したプリンシパルをバケットに追加すると良いでしょう。

gcs_principle
GCSのコンソールキャプチャ

あとは指定のバケットに推論させたい、人物あるいは服の画像を入れて URI を指定すれば完了です。

Request JSON body

{
  "instances": [
    {
      "personImage": {
        "image": {
          "gcsUri": "gs://vton-api-input/person.png"
        }
      },
      
      "productImages": [
        {
          "image": {
            "gcsUri": "gs://vton-api-input/product.png"
          }
        }
      ]
    }
  ],
  "parameters": {
    
    "storageUri": "gs://vton-api-output",
  }
}

ちょっとした応用で、Veo3で短尺動画が作成できるので SNS リール広告などに活用できます。次の表の一番右にある、グレーのパーカーをスタイリッシュな男性がバーチャル試着した結果です。

この男性の画像を Veo 3に変換すると次のような動画も作成できます。

プロンプト例

A person wearing the virtual try-on top, elegantly walking forward in a minimalist studio with a clean white background. He performs a smooth, subtle turn, showcasing the back of the garment. The camera slowly tracks her, keeping the top in clear focus, highlighting its modern fit and fabric drape. Soft, bright, diffused studio lighting. Professional product video aesthetic. 8 seconds.

https://www.youtube.com/watch?v=29lgyakcvIQ

例えばシナリオとして、あなたがアパレル会社勤務の SNS 広告担当だとして、今夏シーズンのトレンドを抑えた自社ブランドをモデルに着用してもらい、SNS 広告を配信して顧客獲得を狙うとします。

これを実現するためのステップは次のたった5つのみで、全く何もないゼロの状態から Google AI を組み合わせて実現できます。画像生成、バーチャル試着、動画生成がありますが、合計してもわずか5分程度で生成できます。

  1. Gemini 2.5 Pro で Google 検索のグランディングと URL context Tool を使い今夏のトレンドを調べる
  2. モデルの人物画像を用意する
    • 今回は Imagen 4で生成
  3. 自社ブランドの商品を用意する
    • 今回は Imagen 4で生成
  4. Virtual Try on API でバーチャル試着させる
  5. Veo 3で動かす

以下は最初の手順で Gemini 2.5 Pro に調査してもらった出力結果の抜粋です。今回、選んだアイテムは「ショート丈のジップアップパーカー」です。

2025年夏シーズンのメンズ人気ファッションとして、以下の3つを選定しました。それぞれのトレンドに合わせたトップスの画像生成プロンプトも合わせてご紹介します。

ショート丈のジップアップパーカー
2024年秋冬から引き続き、前がジップになったショート丈のパーカーが人気です。トップスとしても羽織りとしても活躍し、ショート丈を選ぶことで今っぽいシルエットになります。
プロンプト例: ライトグレーのショート丈ジップアップパーカー、ドロップショルダー、ストリートスタイル、カジュアルな雰囲気、コットン素材のテクチャ

Google AI のマルチモーダル領域は最近急激に性能が向上しているため、こういったシナリオも AI だと一目では判断できないくらいに品質高く、かつ簡単に実現できるようになりました。

本記事では、Google の Virtual Try-On API の登場を機に、バーチャル試着技術の全体像について詳しく見てきました。

2023年の拡散モデル導入から始まり、2025年5月の Google I/O での「Try it On」発表、そしてわずか3ヶ月後の Virtual Try-On API の公開まで、この分野の技術的進歩と民主化のスピードには目を見張るものがあります。これまで学術研究の領域に留まっていた高品質なバーチャル試着技術が、API という形で誰でも簡単に利用できるようになったのは画期的な出来事です。

技術的な観点では、GAN から拡散モデルへの技術転換が VTON の品質を飛躍的に向上させました。特に、服の質感やディテールの保持において、従来では実現困難だったレベルの表現が可能になっています。一方で、これまでの OSS モデルが抱えていた商用ライセンスの課題を、Google や AWS といったビッグテックが API 化することで一気に解消した点も重要です。

実際に Virtual Try-On API を試してみた結果、30秒程度という生成時間で高品質な試着画像が得られることを確認できました。さらに、Veo 3 との組み合わせにより、静止画から動画への展開も可能で、SNS 広告などの実用的なシナリオでの活用可能性を感じました。Google AI のマルチモーダル領域における急速な進歩により、アイデアから実装まで驚くほど短時間で実現できる環境が整ったと言えるでしょう。

ファッション業界やバーチャル試着を専業とするスタートアップにとっては確かに大きな変化となりますが、一方で新たなビジネスチャンスも生まれています。ウェディングドレスの事例のように、従来時間のかかっていた試着プロセスを効率化したり、Google 検索から購入まで一気通貫した新しいショッピング体験を提供したりと、技術の民主化により多様な応用が期待できます。

今後は API の GA 化や日本国内での「Try it On」機能の展開、さらなる精度向上などが期待されますが、バーチャル試着がいよいよ実用的な技術として普及段階に入ったのは間違いないと思います。この技術的変革がファッション業界、そして私たちの日常的なショッピング体験にどのような影響を与えていくのか、今後の展開が楽しみです。

Google 公式ブログ・ドキュメント

技術論文・リポジトリ

動画・イベント

AWS・その他企業

関連記事・スクラップ



Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -