AIが一般的になってきて、AIでみんなNotebookLMとかでキャッチアップしているのではないかと思います。
AIの力を借りて概要を見たりして、掴んだ後に、動画を見ていきます。
驚いたところを太字にしています。
分かった気になれるキーワード関連グラフ
-
Introduction
- たくさんGemini関連のリリースをしていっている
https://youtu.be/o8NiE3XMPrM?t=222 - Gemini性能向上
- LMArenaですべてのカテゴリ1位になった話。
- CursorではGeminiが一番成長している
- Pokemon Blueクリア
- AIプラットフォーム
- 次世代TPU Ironwood
- AIトークン処理量が50倍になったそう
- Project StarlineとGoogle Beam
- 3Dビデオ技術「Project Starline」が進化して、ビデオ通信プラットフォーム「Google Beam」になったそう (later this year)
-
Google MeetへのAI翻訳
- https://youtu.be/o8NiE3XMPrM?t=688
- これはXなどでも話題になっていましたね。
- リアルタイムに翻訳してくれます。
- Project AstroとProject Mariner
- Project AstroがGemini Liveに統合されて、現実世界を理解できるようになった
- Project MarinerとAIエージェント
- Project Marinerは、インターネットを自分で操作して、ユーザーの代わりにさまざまなタスクをこなすことができる、Googleの研究中のAIエージェント
- 10 Multitaskできるようになった
- Teach and repeat搭載: AIに一度やり方を見せるだけで、AIがその手順を覚えて、同様のタスクを繰り返し実行できるようになる機能
- Gemini APIに来る予定
- Gemini SDKが MCP toolsに対応
- Agent ModeがChrome, SearchとGemini Appに追加(Project Marinerを使う) (comming soon)
- パーソナライゼーション
- personal context: ユーザーのGoogleアカウントにある情報(メール、写真、ドキュメントなど)をAIが(ユーザーの許可を得て)理解し、それに基づいてパーソナライズされた応答やサービスを提供する
- Personalized Smart Replies: 従来のSmart Replyをさらに進化させたもので、AIがユーザー自身の過去のメールや書き方を学習し、よりユーザーらしい言葉遣いやトーンで返信を自動生成する機能
- たくさんGemini関連のリリースをしていっている
-
DeepMind + Gemini for Developers
-
Native Audio Output
- 今日から利用できる
- 2人で会話しているようなのが作れる
- Live APIも Native Audio Dialogに対応
- Gemini 2.5の改善
- 考えた内容のサマリがGenini APIで利用できる
- Flashが22%トークン利用料が少なくなった
- Thinking badget
- どれだけ考えるトークンを使うか設定できる
- Jules
- Googleのコーディングエージェント
- ベータに
- https://jules.google
- Googleのコーディングエージェント
- Gemini Diffusion
- (画像モデルと同じように生成する。)ノイズを訂正することで動く。
- 一番速い。
- 2.5 Flash Lightに技術を持っていく予定だそう
-
Gemini Deep Think
- コーディングやマルチモーダルでベンチマークが強くなった。(trusted testerが利用可能に)
- World Model
- Deep Think: AIが現実の世界の仕組みを理解し、その中で何が起こるかを予測したり、新しい状況をシミュレーションしたりできる能力
- Project Astraのデモ
- Astraは未来のAIアシスタントを試作するプロジェクト
- pdfを勝手に開いてスクロールして、必要なページを見つけたり、YouTube開いたり、アシスタントが勝手にやってくれて、色々できる
- 一見の価値あり
- AIの科学的発見
- 色々やってるよという話。最近のAlphaEvolveなど
- 特にAlphaFoldは250万人以上の科学者に使われている
-
Native Audio Output
-
検索
- エージェンティックでパーソナライズドするそう。
- これまで
- OverviewとかLensとかめっちゃ使われた
- AI Modeを導入
- もっと複雑で長い質問をできる
- テスターによると2-3倍長い質問が投げられるようになった
- 今日(I/Oの日)からアメリカでローリングアウトを始める
- AIMode Gemini 2.5をSearchに。4つできる。
- Personal context
- Opt InでGmailと接続できる。いつでも切断もできる。
- 例えば飛行機予約やホテルの情報と連携して、近くのおすすめの場所を教えてくれたりする。
- Opt InでGmailと接続できる。いつでも切断もできる。
- Deeper research(夏に来るらしい)
- もっとfanout techniqueを使う
- Analysis & visuallization(夏に来るらしい)
- 数値的な集計や、そのvisualizeを表やグラフなどで出せるようになる。
- Live multimodality
- Gemini Liveでカメラを共有しながら検索したりなどができる
- New ways to shop
- Project Astraと連携して、チケットを探して、チケットのフォームの情報を入力し、主要な情報を教えてくれて、購入を決定できる。
- Shopping Graph
- 50Bの商品
- 検索のときに例えば子どもがいるというのを付け加えると汚れに強い素材のものを選んでくれたりなどする。
- Try it on: 画像と商品で、着たときの画像を作れる。これのための画像モデルを作った。
- Personal context
-
検索のAI Modeはquery fanout technique を使う
- query fanout techniqueは、AIが複雑な質問を受けたときに、それを複数の小さなサブトピックに分解し、同時に多くの関連する検索を実行して、最終的に包括的な答えを構築する技術です。これにより、非常に詳細な情報を効率的に収集できる。Google Mapのレビューなどのコミュニティの投稿内容も利用する。
-
Gemini
- Geminiのゴール
- personal
- 過去の検索履歴を使ってGeminiが答えるなど。
-
proactive(先を見越した)
- 例えばカレンダーを見て提案したりする
-
カレンダーで物理学のテストがある → 物理学のテストあるから問題作ってみたよみたいなことができる
- → コンセプトを説明する動画も生成したよ
- powerful
- Gemini 2.5で色々なことができるようになった
- personal
- Gemini Live
- カメラと画面共有がAndroid iOSで無料に
- 例えば友達からの買い物リストをこれで取ったらGoogle Keepに起こせたりする
- Deep Researchでファイルをアップロードできるようになって、ドキュメントの中から情報を探せるようになった
-
Canvasのアップデートで以下に変換できるように
- Webページ化
- 棒グラフなど
- クイズ
- オーディオオーバービュー(45分のものも作れる)
- 他にもなんでも指示できる
- Gemini in Chrome
- ページのコンテキストを理解する。
- ウェブページの長いレビューページからをべたりなど。
- Imagen4がGeminiアプリで使えるように
- 画像生成
- 文字を骨で書くとかそういうこともできる
- 10倍速くなった
- Veo3
- 動画生成
- オーディオジェネレーションサポート
- Geminiのゴール
-
Geneartive Media
- Lyria2がenterprisesとYouTube creatorとミュージシャンに利用可能に
- SynthID
- ウォーターマーク
- 10ビリオン画像、ビデオ、オーディオにウォーターマークをつけた。
- 新しいdetector
- https://labs.google/synthid
- Veo
-
Flow 動画作成メーカーみたいなやつ?
- 今日launch
- 画像を渡して、統一感がある形で生成できる
- シーンの次のシーンを統一感のある形で作れる
- 次のシーンに対してどういうものを作るのかのプロンプトも指定できる
- 一見の価値あり
- https://youtu.be/o8NiE3XMPrM?t=5548
-
Google AI Pro
- 19.99 / month
- Flow with Veo2など
-
Google AI Ultra
- 249.99 / month
- Flow with Veo3など
- https://youtu.be/o8NiE3XMPrM?t=5807 より
-
Android
- GeminiがWear, Car, TVに。
- AndroidXR
- XRは以下4つに分類される。映画見たり、ゲームしたり、仕事するのはイマーシブヘッドセットなど。外に出かけているときはグラスなど。
- SamsungのProject Moohan 最初のAndroidXRヘッドセット
- Geminiと連携して、Mapがみれたり、色々できる
-
AndroidXRのグラスのデモ
- お店のレビューが見れたり、ナビが見れたり。
- https://youtu.be/o8NiE3XMPrM?t=6189
- ライブ翻訳
- AndroidXRのグラス向けの開発が今年の後半に可能になる
- AndroidXRの開発パートナーとしてGENTLE MONSTERとWARBY PARKERが参加
-
Closing
- FireSat山火事早期発見
- デモ中心で行うそう。
- Building with Gemini
- Stitch
- https://stitch.withgoogle.com/
- プロンプトでデザインができる。
- HTMLコピーできる、またFigmaにもコピーできる。
- これ試したんですが結構すごかったです。トップページでプロンプト入れるだけです。
- AI Studio上のデモ
- Gemini APIとAI Studioの最新情報
- URL Context
- Geminiモデルがウェブページにアクセスし、その内容を理解するために使用できる新しいツールです。これにより、モデルは最新の関連情報に基づいて応答を生成できる
- 20 Linkまで追加できる
- Code Editor
- AI Studio上でコードエディタ使える
- URL Context
- GenAI SDKのMCPサポート
- 音声通話でのMCPの非同期実行をサポート。シームレスな会話が可能に
-
AI Studioで作ったものをCloud Runで走らせられる。
- VSCodeのCLOUD CODE/CLOUD RUNから走らせたコードを見ることができる
- https://youtu.be/GjvgtwSOCao?t=875
- Gemini APIとAI Studioの最新情報
- Stitch
- Android
- AndroidifyというDroidくんのアバターを作れるアプリを今AIを作ったらどうなるだろうというプロジェクト
- https://github.com/android/androidify
- 写真を撮ったらそのアバターができるというもの
- FirebaseのAIを使っている
- Material 3 Expressiveを使っている
- クッキーぽいデザインなど
- LiveUpdate
- Android 16: フードデリバリーなどで利用できる通知
- R8とBaseline profile
- Redditで、40%のCold startupの改善など
- Adaptive
- Large screen対応
- Canvaでは2倍複数デバイスで使うユーザーが増えた
- Car, XR
- XR
- SamsungがXRデバイスを作っている話
- Project Aura: XREALがdeveloper向けのXRデバイスを出すそう
- XR Preview2
- new material XR Components
- XR
- Adaptive対応すると500Mデバイス(5億?)で走らせられるという話
- Large screen対応
- Prodactiity (このあたりはWhat new in AndroidやWhat’s new in Android development toolsとかぶってそう)
- Compose
- トップアプリの60%のアプリで使っている
- CameraX(Beta), Media3(Stable)対応
- Navigationライブラリを再実装している(多分Navigation3の話)
- ここでのモチベはいろんなサイズのデバイスでのナビゲーションが難しいこと
- Journey
- E2Eテストはアプリの大部分を見れるのでいいよねという話。
- ただ実装するのが難しいよねという話。
- 自然言語でできるようになったよという話。
- Auto Version update
- まずアップデートして、Geminiがエラーを見て対応してくれる感じ
- Gemini in Android Studio for businesses
- Compose
- AndroidifyというDroidくんのアバターを作れるアプリを今AIを作ったらどうなるだろうというプロジェクト
- Web(飛ばし気味です)
- カルーセル(Chrome 135)やホバーカードなどの新しいUI機能
- ブラウザ互換性の可視化
- Chrome DevToolsのAI機能
- DevTool内でAIにHTMLを直させて真ん中寄せして!とか言って直させられる
- コードにも反映できるっぽい?
- DevTool内でAIにHTMLを直させて真ん中寄せして!とか言って直させられる
- 7つのAI APIがWebで利用できるように
- ローカルLLMで処理される
- マルチモーダルなビルドインAI APIも
- 画像とプロンプト → text
- オーディオ → textなど
- https://goo.gle/chrome-ai-preview
- Firebase Studio
- Figmaデザインからフルスタックアプリを生成するAIワークスペースの機能
- builder.ioの協力を得ているらしい
- Figmaでbuilder ioプラグインを使って、Firebse Studioにexportできる
- Figmaデザインからフルスタックアプリを生成するAIワークスペースの機能
- Gemma
- Gemma 3n
- 2GBのRAMで動く
- Gemini nanoと同じアーキテクチャ
- 音声理解が追加
- MedGemma
- medial text向け
- Gemmaで簡単にファインチューンができるデモ
- unsloth(Googleとは関係なさそうですが)
- LLMのファインチューンするツール
- 速くて、少ないメモリで動く
- Google Colabの無料ティアのNVIDIA GPUでよく動く
- 文章を絵文字に変換するもの
- lunaという犬がいるので、その時に犬の絵文字になるように
-
ColabのAI機能を使う
- これで、オリジナルのGemmaと比較するUIを作ってもらったりできる
- https://youtu.be/GjvgtwSOCao?t=3727
- unsloth(Googleとは関係なさそうですが)
- Navarasa: 去年の発表インドの15言語が喋れるモデル
- Gemmaは140言語で利用できる
- SignGemma: 手話
- DolphinGemma: イルカの喋る言語のLLM
- Gemma 3n
Compose
- まずRinというライブラリで、
rememberRetained{}
が使えるのを自分が作っていたのですが、それがいらなくなりそうというのが出てきていたのがちょっと驚きポイントでした
https://github.com/takahirom/Rin
- AutoFillとか、AutoSizeとかがComposeに入った。
Modifier.animateBounds()
が入った。今までとの違いはサイズと位置変更両方のアニメーションをしてくれる- Modifier.onLayoutRectChanged()が入った。これはVisiblility trackingに使えて、onGlobalPositionChanged()との違いは、もっとパフォーマンスが良いこと。
- Modifier.onVisibilityChanged{ visible = it }が入った。ビデオ再生を始めたり止めたりする時に便利だそう
- ComposeのJunkが最新バージョンで0.1%以下になったそう
-
Navigation3: ComposeでNavigationを簡単に。 https://goo.gle/nav3
- 提供するものadvanced transition
- アダプティブ (including XR)
- カスタマイズ可能
- Media3とCameraXのCompose対応
- KMPのサポートの話(知ってた)
- Material3 Expressiveの話
- ComposeもViewも一応alphaがでている
- Live Updates(Notification)
- フードデリバリーなどで、プログレスをNotificationに表示できるやつ
- 認証系とヘルスコネクトも色々ありましたが飛ばしているので、見たい方は見てみてください。
- R8のガイドラインドキュメントができた
- UiAutomator API。
- ベンチマークとかで使えるそう
- 多分昔からあった気がするけどAndroidXデラップしたのかな? https://developer.android.com/reference/androidx/test/uiautomator/UiDeviceExt
-
SDK 36, Android 16では manifestの screen orientation や resizable activity や aspect ratioが無視される
- Gameは無視
- 大画面のみ 横幅600dp以上
- ユーザーはオプトアウト可能
- 一応アプリ側でもオプトアウトが一応できる。(temporaly)
- WatchFacePush API: WearのWatchFaceを一個ずつインストールするのではなくWearからCloudに取りに行くようにできるそう
- Live Update(Notification): タクシーをまったりフードデリバリーを待っているときとかに表示するやつ
- Widget
- Google PlayでWidgetが見つかりやすく
- Glance1.2でPreviewの改善
-
Widgetのメトリクスが取れるように
- impression
- click
- scroll
- Android 16でEdge to edge の optoutがdeprecatedに。
- Android 16(targetSdkVersion 36↑)でPredictive backがenabled by default
-
一応optout可能
- android:enableOnBackInvokedCallback=false
-
一応optout可能
- CameraX
- Media3
- PreloadManager 短いビデオの再生を早くできる。Scroll内などで使うことができる。
- Audio
- DSPというオーディオ処理のハードウェアにオーディオ処理を任せられるようになったらしい。
- AI
- GenAI API
- Gemini nanoを使う
- サマライズなどにタスクに特化したAPI
- サンプルコードはここにあるみたいhttps://github.com/android/ai-samples/blob/main/ai-catalog/samples/genai-summarization/src/main/java/com/android/ai/samples/genai_summarization/GenAISummarizationViewModel.kt#L75-L76
- Gemini Live API
- Home API
- 自動でオートメーションを作るのと、賢いカメラの体験を提供する
- GenAI API
- IntelliJのアップデートと機能追加のFeature dropで分けていて以下のように進んでいる。
- Android Studioチームでは0 1のデザインから作っていくところや、プロダクションで品質を高めていっているところまでちゃんと見るようにしているそう。
デモ
- Android StudioのChatをComposeで書き直したのでアニメーション実装できたよ。
- Chatで画像も追加できるよ
- Upgrade Assistant
- 勝手にアップデートをお願いできる。
- 複雑なアプリでは結局デモ上では失敗していた (リアリティあってよかった)
- 勝手にアップデートをお願いできる。
- Android StudioのSyncでGoogleアカウントかJetBrainsのアカウントでAndroid StudioのSyncができるので、Firebase Studio上のAndroid StudioとローカルのAndroid StudioをSyncできるようになった
- Journeys for Android Studio
- AI Agentでテストできるやつ
- Recorderがある。操作したものをベースにJourneyのActionを作れる。 意図したものと違うものが出てきたりするので、自分で編集しながら作る。
- Firebase App Testing Agent と連携しようとしている。
- (自分はOSSでちょっと似たArbigentというものを作っていてたまたまスライドを作っていたので、 との違いは現状はこんな感じ。 色々あるとはいえMade by Googleは強い
)
- GeminiのAndroid StudioのAgent Modeの話 (Comming soon)
- GeminiはIDEの機能を使えるので関数名で検索したり、Gradleのvariant nameを取得したり色々ツールが使える。
- Lint直してくれたりとかもする
- Crashlyticsと連携して、修正とかもできる
- Compose Previewの自動生成
- device partner labs。クラウドの端末を動かせるのだが、Samsungなどスマホメーカーでの端末を動かせる
- AS上で自由にPreivewのサイズ変更できる
- Backup
- テストなどで使えるバックアップをとって、それを使ってテストができたりするという話。
- https://youtu.be/KXKP2tDPW4Y?t=1761
- どこまでバックアップできるのか試してみました。
- 基本的にはデータだけバックアップされる気がする。
- バックアップされる内容はapkの実装○、Disk○、メモリxという感じに見える。バックアップのサイズは2KBとかめっちゃ小さいんだけどアプリの実装内容がバックアップ時点に戻るっぽくて、仕組みが気になります。
- Android XRでもLayoutInspector使えたりするよという話
- 動かなかったが。
- Gemini for Android Studio for business
- 色々コントロールできる
- R8 9のライブラリを使うときの最適化
- 多分ライブラリとアプリ別のRuleで最適化したりできるっぽい? (ちゃんと理解できていない)
- Gradle関連の新しい機能
- Phase Sync: 大きなアプリのプロジェクトを開く際に、データの準備作業をいくつかの段階に分けて行うことで、Android Studioがより早く使えるようになる機能
- Fused libraries: 複数の小さな部品のライブラリを一つの大きなライブラリとしてまとめる方法
- Gradle Daemon Chain: GradleとビルドのJDKバージョンを揃えられるようになった
- 16KB Page Size Varidation: C/C++のライブラリを使っているアプリで新OSで16KB Page Size対応が必須になったが、アナライザでちゃんと対応しているのかが見れるようになった
Finding the perfect Gemini fit on Android
- OSのGeminiとアプリの連携
- Stay tunedだそう。
- Intelligent Apps: パーソナライズされたスマートなアプリ体験の作り方
- 3つ考慮する: Modality, Complexity, Context Window
- 受け取ったメッセージのサマリが欲しい場合
- inputはtext
- Summalize
- inputとoutputは比較的短い
- → オンデバイスモデル
- デバイスからデータを送信する必要がない
- オフラインで動く
- コストが安い
- Gemini Nano
- GenAI APIs powered by Nano
- サマライズや校正、書き直し、画像の詳細などを作れる
- → Gemini Nanoは別セッション
- LiteRTやMediaPipeもある
- Google AI Edge SDK でもカスタムモデルをデプロイできる
- TensorFlowやPyTorch, Keras, JAXに対応している
- このSDKの上でMediaPipe Inference APIsで動かせるみたい(ちょっと去年までの知識が邪魔しているんですが、Google AI Edge SDKにMediaPipeは移動したっぽいように見えます)
-
Play for On-device AI(Beta)
- 自分のモデルのダウンロードやアップデートをGoogle Play上で操作できる
- https://youtu.be/7Tnq4y7T4xs?t=471
- 友達から受け取った動画のサマリを作ったり、画像を生成して送りたい場合は?
- Firebaseを使う
-
- on deviceもCloudも両方使うことができることに注意
- https://d.android.com/ai
Gemini Nano on Android: Building with on-device gen AI
-
成功する典型的なGenAIのユースケース
- コンテンツ消費
- まとめたりなど
- コンテンツ生成
- アイデアの作成
- コンテンツ分類
- カテゴライズなど
- コンテンツ消費
- AICore
- システムレベルモジュール
- なぜ?
- ハードウェアによる最適化
- モデルのデプロイハンドリング
- Gemini Nanoを含む
- ローカル実行
- AI Coreはインターネットにアクセスできないようになっている。モデルのダウンロードは別のサービスで行われる。
- 設計
- リクエストが分離されるようになっており、他のアプリにデータが渡ってしまわない仕組みになっている。
- inputとoutputはデバイスに保存されない
- 有害なものや意図しない結果を防ぐレイヤーがある
- GenAI API
- いくつかのタスクで使えるAPI
- サマライズや校正、書き直し、画像の詳細を作れる
- なぜ?
- 簡単に利用できる
- プロンプトエンジニアリングをする必要がない
- デバイス間でのクオリティの違いやモデルのアップデートを気にする必要がない
- それぞれのタスクのためのLoRAブロックがある
- APIのリリース時にメトリックプロンプトがあり、それで確認するようになっている
- 最適化されたプロンプトが入っている
- サマライズ作成
- コード
- 4000トークン以下
- http://goo.gle/mlkit-genai
- ユースケースの話
- Gemini Nanoは特定のタスクに最適で、サーバーコストを減らせる
- GoogleのアプリではかなりGemini Nanoを使っている
- GenAI Prompt APIを今年提供予定。Promptを作るのを簡単にするAPI
- 韓国のKakaoのアプリではデリバリーサービスで住所を抜き出すのに課題を感じていたが、GenAIでできそうということがわって40秒削減できそうという話など
(一旦ここまで、見ましたまだ見ていきたい感じはあります。)
Summary
ベースモデルの発展を活かして、AIをどう活用していくのか。Gemini 2.5で現実的になった応用の例がたくさん出てきたという印象でした。
Views: 0