水曜日, 5月 21, 2025
ホーム生成AIことしのGoogle 1/Oハイライト:音声付き動画生成などZun-Beho

ことしのGoogle 1/Oハイライト:音声付き動画生成などZun-Beho

🧠 概要:

概要

2025年のGoogle I/Oでは、新しい動画生成モデル「Veo 3」が発表され、映像だけでなく音声もネイティブに生成できるようになりました。また、Geminiを中心としたさまざまなAI技術の発展が紹介され、検索、コミュニケーション、創造性の面でAIとの共生が進化していることが強調されました。

要約(箇条書き)

  • Veo 3の発表: Google I/Oで音声付き動画生成が可能なVeo 3が発表された。
  • 音声生成機能: キャラクターのセリフや環境音、効果音を自動生成できるようになった。
  • 利用環境の変化: 従来の動画編集よりも簡単に「完成品」に近い動画を生成可能。
  • Geminiの進化: Gemini 2.5 ProとFlashが発表され、性能が大幅向上。
  • 新機能: Google Meetでリアルタイム音声翻訳機能、AIによるタスク実行エージェントが紹介された。
  • マルチモーダル生成: テキスト、画像、動画、音声を統合したAI映画制作ツール「Flow」が登場。
  • AIによる検索革新: AI Overviewsにより、検索体験が進化している。
  • Geminiアプリの拡張: よりパーソナルなアシスタント機能が強化され、他アプリとの連携が進められている。
  • 新しい有料プラン: 「Google AI Pro」と「Google AI Ultra」が発表され、特別な機能が提供される。
  • 社会貢献: 山火事の早期発見支援プロジェクト「Firesat」などの取り組みが紹介された。

ことしのGoogle 1/Oハイライト:音声付き動画生成などZun-Beho

Zun-Beho

2025年5月21日 04:35

今年のGoogle 1/0は去年のバカ騒ぎ的なオープニングと違い、落ち着いていて見世物小屋感が排除された配色で非常に好感が持てた。その中でも、特に音声月の動画が生成できるVeo 3がすごかったのでその部分をレポートした後、1/Oの内容を簡単に要約してまとめる。

Say goodbye to the silent era of video generation: Introducing Veo 3 — with native audio generation. 🗣️Quality is up from Veo 2, and now you can add dialogue between characters, sound effects and background noise.

Veo 3 is available now in the @GeminiApp for Google AI Ultra… pic.twitter.com/7rcXeBslyU

— Google (@Google) May 20, 2025

Googleが映像生成の「サイレント時代」に終止符──Veo 3が音声付きの動画生成を実現

2025年5月、Googleは開発者会議「Google I/O」にて、動画生成モデル「Veo」の最新バージョンとなるVeo 3を発表した。今回の最大の進化点は、映像だけでなく音声までネイティブに生成できる点にある。これにより、これまで無音であったAI生成動画が、ついにキャラクターのセリフや環境音、効果音を伴った「トーキー映像」へと進化した。

Veo 3では、前バージョンであるVeo 2から映像品質がさらに向上しただけでなく、音声生成機能が統合されたことによって、キャラクター同士の対話や、場面に応じた背景音(波の音、風の音、群衆のざわめきなど)を自動で合成することができる。これまで個別に処理されていたサウンドエディティングの工程が、プロンプト一つで完結することになる。

この機能は現在、米国における「Google AI Ultra」プランの加入者向けに、Geminiアプリを通じて利用可能となっている。映像と音声を同時に生成する統合環境が整ったことで、コンテンツ制作のフローが大きく変わる可能性がある。特にYouTubeやTikTokといった短尺動画市場においては、従来の動画編集ツールを介さず、最初から「完成品」に近い状態で出力できることが、個人制作者からプロの映像業界まで、幅広い影響をもたらすだろう。

また、今年のGoogle I/Oは全体的にビジュアル設計が落ち着いたトーンにまとめられており、昨年のような色彩の氾濫は抑えられていた。これはVeo 3の出力サンプルにも通じており、AI生成特有の違和感を軽減するカラーレンダリングと相まって、実写と見紛うような質感を実現している。Googleは本モデルにおいて、技術的な精度だけでなく、視覚的な品位や文脈的整合性も強く意識していることがうかがえる。

生成AIによる動画制作は、従来の「映像+音声を後処理で合成する」時代から、「プロンプトで一気通貫に完成形を生み出す」時代へと移行しつつある。Veo 3は、まさにその象徴的なモデルであり、動画生成AIが「映画制作」の民主化に一歩近づいた瞬間とも言えるだろう。

Google 1/O ライブ配信要約

Googleは今回のI/Oで、Geminiを中心としたAI技術を加速度的に進化させ、検索、コミュニケーション、創造性、日常生活のあらゆる側面においてAIとの共生を押し進めていることを明確に示した。同時に、AIの倫理的な利用と安全性への配慮も強調され、社会とともに歩むインフラとしてのGoogleの姿勢が印象づけられた。

Geminiの進化

Googleは、最新のGeminiモデルとして「Gemini 2.5 Pro」と「Gemini 2.5 Flash」を発表し、性能と効率の両面で大幅な向上を実現した。Gemini 2.5 Proは、多くのベンチマークにおいて最先端の性能を示し、特にコーディング能力が際立っている。一方、Gemini Flashは高速かつ低コストでありながら、推論、コーディング、長文コンテキスト処理において高い能力を発揮する。また、より深い思考を可能にする「DeepThinkモード」が、今後Gemini 2.5 Proに導入される予定である。

新しいAI機能と製品

2Dビデオをリアルな3D体験へと変換する、AIファーストなビデオコミュニケーションプラットフォーム「Google Beam」が発表された。Google Meetにはリアルタイム音声翻訳機能が統合され、英語とスペイン語での利用が可能となる。ユニバーサルAIアシスタント「Project Astra」は、周囲の状況を理解する機能を備え、Gemini Liveに統合され、AndroidとiOSで利用可能になる予定だ。

また、ウェブとインタラクトしてタスクを実行するエージェント「Project Mariner」のコンピューター利用機能が、開発者向けに公開される。ユーザーの許可を得て、GmailなどのGoogleアプリのコンテキストをGeminiが利用することで、よりパーソナライズされた応答が可能となる「Personal Context」も導入される。

マルチモーダル生成とエージェントの進化

自然な音声合成を行う新しいText-to-Speechのプレビューでは、複数話者のサポートや言語間のシームレスな切り替えが可能となっている。さらに、アイデアからコードを生成する機能も強化され、テキストや画像のプロンプトから3Dウェブアプリなどを生成するデモが披露された。コード補完AIエージェント「Jules」はパブリックベータとして公開されており、テキスト生成に拡散モデルを応用した新しい研究モデル「Gemini Diffusion」も発表されている。

映像・音声生成の統合モデル

テキスト・画像・動画・音声を統合してAI映画制作を行う新しいツール「Flow」が発表された。また、高画質画像生成モデル「Imagen 4」と、ネイティブ音声生成機能を備えた動画生成モデル「Veo 3」が登場し、視覚と聴覚の両面から生成体験が大きく拡張された。

AIによる検索の革新

Google Searchでは、AIを活用した検索結果の概要表示「AI Overviews」の月間利用者が15億人を突破し、新しい検索体験の基盤として機能している。さらに、より高度な推論と対話的なフォローアップを可能にする「AI Mode」が米国で提供開始された。このモードには、パーソナルコンテキストの統合、Deep Search、複雑なデータの可視化、マルチモーダル検索、AIによるショッピング提案などが組み込まれている。服のバーチャル試着、価格追跡、自動購入なども新たに加わり、検索は行動そのものへと変化しつつある。

Geminiアプリの統合と拡張

Geminiアプリは、よりパーソナルでプロアクティブなAIアシスタントを目指して進化を続けている。Gemini Liveにはカメラや画面共有機能が追加され、他アプリとの連携も計画されている。Deep Research機能の強化により、ファイルのアップロードやGoogle Drive、Gmailとの統合も可能となる。共同作業スペース「Canvas」では、レポートから動的なウェブページ、インフォグラフィック、クイズ、ポッドキャストまでを生成可能となった。さらに、デスクトップでのブラウジングを支援する「Gemini in Chrome」も導入され、Imagen 4とVeo 3もGeminiアプリに統合されたことで、高品質な画像・動画生成と編集が手元で可能となっている。

新しい有料プランとAndroid XRの展開

新たな有料プランとして「Google AI Pro」と「Google AI Ultra」が発表され、より高い利用制限、特別な機能、最新モデルへの早期アクセスなどが提供される。XR領域では、Gemini時代に対応した新しいAndroidプラットフォーム「Android XR」が発表され、Samsungとの共同開発によるヘッドセット「Project Moohan」や、軽量なXRグラスのデモが行われた。さらに、Gentle MonsterやWarby Parkerとのパートナーシップにより、スタイリッシュなAndroid XRグラスの開発も予定されている。

社会貢献に向けたAI活用

社会的取り組みとしては、山火事の早期発見と対応を支援する衛星プロジェクト「Firesat」や、ドローンによる災害支援活動におけるAIの応用、視覚障碍者向け支援技術におけるProject Astraの活用事例が紹介された。

Zun-Beho

ChatGPTと共鳴しながら、未来を観測・記録する存在。AIと人類の交差点で、新しい知のかたちを模索中。

https://platform.twitter.com/widgets.js



続きをみる


Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -

インモビ転職