🧠 概要:
概要
この記事は、最新の生成AIニュースをまとめたもので、さまざまなAI技術やアプリケーションの進展を紹介しています。特に、GoogleのGeminiプラットフォーム、DeepMindの新しいAIモデル、OpenAIが提供するChatGPTの機能、その他の革新的なAIプロジェクトについて詳しく触れています。
要約(箇条書き)
-
Geminiの「Build」タブ: Google AI Studioに新たに追加された機能で、Gemini 2.5 Proを使用して簡単にAIアプリケーションを開発できる。
-
Gemma 3n: Google DeepMindが開発したマルチモーダルAIモデルで、モバイルデバイス向けに最適化されている。
-
Tripo Studio Beta: AIを活用した3Dモデリングプラットフォームのベータ版がリリースされ、ユーザーは効率的に3Dモデルを生成できる。
-
Dough: KREA AIで利用可能な画像編集モデルで、元の画像の詳細を高精度で保持できる。
-
Operator: OpenAIのChatGPT機能で、ユーザーの代わりにウェブ上でタスクを自動化するAIエージェント。
-
OpenAIの新しいAIデバイス: Jony IveとSam Altmanが共同開発中の、環境認識機能を持つAIハードウェア。
-
gen2seg: 生成モデルを用いた、汎化性能の高いインスタンスセグメンテーションを実現するフレームワーク。
-
UltraSharpV2: 人気のあるアップスケーリングモデルの後継で、より高品質な画像出力を提供。
-
Dimple: 離散拡散マルチモーダル大規模言語モデルで、ハイブリッドな学習パラダイムを採用。
-
AceReason-Nemotron-14B: 強化学習による数学とコード推論に特化した140億パラメータのLLM。
-
GRIT: 画像を用いて推論するMLLMsの学習を効率化する手法。
-
FASHN AI: AIを活用したファッション関連のサービスで、仮想試着技術に特化。
- Fireworks Manus: コンテンツを自動で取得・分析するAIエージェント。
以上が、最新の生成AIニュースに関する要点です。
『Dimple』
『AceReason-Nemotron-14B』
『GRIT』
『LLaDA-V』
『Scaling Diffusion Transformers Efficiently via μP』
まいどです。
本日の生成AIニュース+テクノロジー情報。
■Build apps with Gemini
Google AI Studioに「Build 」タブが追加されました。
Google AI Studioは、Gemini APIを使用してAIアプリケーションを開発するためのプラットフォームです。
「Build」タブは、Gemini 2.5 Proを使用してコードを生成し、簡単なテキスト、画像、またはビデオのプロンプトからAI中心のウェブアプリケーションを迅速に構築およびデプロイできる新しい機能です。
Gemini 2.5 Proを使用したコード生成機能が統合されており、GenAI SDKと緊密に連携しています。
これにより、開発者はプロンプトから直接アプリケーションを生成できます。
At Google I/O, we released new upgrades in Google AI Studio to make it easier to build with Gemini 🧵↓
— Google AI Developers (@googleaidevs) May 21, 2025
■Gemma 3n
Gemma 3nは、Google DeepMindが開発したマルチモーダルAIモデルで、モバイルデバイス向けに最適化されています。
このモデルは、テキスト、オーディオ、画像、ビデオを処理する能力を持ち、オンラインデバイスでのAIアプリケーションを可能にします。
モバイルデバイス上で動作するように設計されており、RAM使用量をほぼ3倍削減しており、複雑なアプリケーションをスマートフォン上で実行可能にします。
Introducing Gemma 3n, our multimodal model built for mobile on-device AI. 🤳
It runs with a smaller memory footprint, cutting down RAM usage by nearly 3x – enabling more complex applications right on your phone, or for livestreaming from the cloud.
Now available in early… pic.twitter.com/iIJxyaSurw
— Google DeepMind (@GoogleDeepMind) May 23, 2025
■Tripo Studio Beta
Tripo Studioを活用した3Dモデリングプラットフォームのベータ版がリリースされました。
Tripo Studioは、AIを活用して3Dモデルを作成・編集するためのワークスペースです。
このプラットフォームは、3Dモデリングのプロセスを効率化し、ユーザーがAIの助けを借りて高品質な3Dモデルを迅速に生成できるように設計されています。
Tripo Studio Beta is now live! 🥳
With fully controllable & editable workflow, Tripo Studio will be your next 3D workspace with AI.
It’s not about an AI tool, it’s about you.
All of Tripo Membership can now access and get to test Tripo Studio totally FREE during… pic.twitter.com/tKhwMqYBJk
— Tripo (@tripoai) May 23, 2025
■Dough
Doughは、KREA AIで利用可能な画像編集モデルです。
このモデルは、画像に対して編集を加える際に、元の画像の詳細を高精度で保持する能力に優れています。
DoughがGPT-4o(OpenAIの画像生成・編集モデル)と比較され、特に元の画像の特徴を保持する点で優れているとされています。
Found a cool new image editing model called “Dough.”
It’s so much better than GPT-4o at preserving the details of the original image when you make a change.
Which means that you can keep your original face when adding an accessory! Comparison 👇 pic.twitter.com/JSy0hBfg5V
— Justine Moore (@venturetwins) May 23, 2025
■Operator
Operatorは、OpenAIが提供するChatGPTの機能の一つで、ユーザーに代わってウェブ上でタスクを実行するAIエージェントです。
具体的には、Operatorは自身のブラウザを使ってウェブページを閲覧し、テキスト入力、クリック、スクロールなどの操作を行うことができます。
この機能は、ユーザーが面倒なオンライン作業を自動化するのに役立ちます。
ただし、利用対象は現在アメリカ国内のユーザーになっています。
■OpenAIの新しいAIデバイス
このデバイスは、Jony IveとSam Altmanが共同で開発中のOpenAIのAIハードウェアで、ユーザーの環境を認識し、スクリーン依存を減らすことを目的とした新しいカテゴリーの製品です。
円形のシンプルなデザインで、カメラとマイクを搭載し、クラウドベースのAIを活用して動作します。
2026年の発売を目指しており、MacBookやiPhoneに続く「3番目のコアデバイス」となることを目標としています。
ただし、プライバシーや監視に関する懸念も提起されており、今後の展開が注目されます。
WSJ on Jony Ive and Sam Altman’s OpenAI device:
• The product will be capable of being fully aware of a user’s surroundings and life, will be unobtrusive, able to rest in one’s pocket or on one’s desk, and will be a third core device a person would put on a desk after a MacBook… pic.twitter.com/96q3YtM7Mu
— Ben Geskin (@BenGeskin) May 22, 2025
■gen2seg
gen2seg(Generative Models Enable Generalizable Instance Segmentation)は、生成モデルを用いて、汎化性能の高いインスタンスセグメンテーションを実現するフレームワークです。
■UltraSharpV2
UltraSharpV2は、非常に人気があったStable Diffusionのアップスケーリングモデルの後継であり、開発者のKim2091氏によって作成されました。
オリジナルのモデルと比較して、ほぼすべての面で改善されており、より鮮明で、より細かいディテールを生成し、Stable Diffusionで使用した際に格段に高品質な出力が得られるとされています。
https://ko-fi.com/s/4b3245cfe5
■Jenga
Jengaは、Diffusion Transformerを用いたビデオ生成において、学習なしで大幅な高速化を実現する新しい手法です。
Attention CarvingとProgressive Resolutionという2つの主要な技術により、効率的なビデオ生成が可能になります。
■MoviiGen1.1-VACE-GGUF
MoviiGen1.1-VACE-GGUFは、テキストからビデオを生成する強力なモデルであるMoviiGen1.1を、CPU環境でも扱いやすいGGUF形式に変換し、ComfyUIで利用できるようにしたものです。
VACEという機能拡張も統合されており、より高品質なビデオ生成が期待できます。
利用には、モデルファイルのダウンロードと適切な場所への配置、ComfyUI-GGUFカスタムノードのインストール、そしてVAEの別途ダウンロードが必要です。
■Pine AI
Pine AIは、ユーザーの代わりに電話をかけて、さまざまなタスクを自動的に処理するAIアシスタントです。
ChatGPTのような自然な会話をし、さまざまな面倒なタスクを自動的に処理します。
🚨BREAKING: The AI that makes phone calls just dropped.
It can reschedule your dentist, cancel your gym, and gets things done.
Here’s how to use it👇 pic.twitter.com/LGfI21YNJI
— Hasan Toor ✪ (@hasantoxr) May 23, 2025
■ComfyUI-Gemini_TTS
ComfyUI-Gemini_TTSは、ComfyUI用のカスタムノードで、GoogleのGemini Text-to-Speech(TTS)の機能をComfyUIのワークフロー内で直接利用して、高品質な音声合成を行うことができます。
使用するには、Google AI StudioでAPIキーを取得する必要があります。
■Memex
Memexは、AIを活用して、プログラミングの知識がなくても高速にアプリケーションやダッシュボードなどを構築できるプラットフォームです。
今回Claude Sonnet 4 と Gemini 2.5 Pro が Memex で利用可能になったとの事です。
■FASHN AI Consistent Models
FASHN AIは、AIを活用したファッション関連のアプリケーションやサービスを提供するプラットフォームで、特に仮想試着(virtual try-on)技術に特化しています。
今回、「Consistent Models」という新機能が紹介されており、ユーザーが独自のモデルをトレーニングし、それらをモデル作成スタジオで使用できるようになりました。
If we don’t ship on Friday we die
FINALLY introducing: Consistent Models 🔥
You can now train your own models and use them in our model creation studio
or use our cool in-house models: Faye, Felix, and Fei-Fei!
This took a lot to perfect. I appreciate everyone’s support! pic.twitter.com/8NUwNzTGwB
— Aya Bochman (@ayaboch) May 23, 2025
■Fireworks Manus
Fireworks Manusは、ウェブをナビゲートし、コンテンツを抽出し、ウェブサイトを分析し、見たものに基づいてインテリジェントなフィードバックを提供するAIエージェントです。
Fireworks AIの最先端モデルを使用することで、ウェブコンテンツを視覚的およびテキスト的に理解できるため、SEO分析、コンテンツ調査、ウェブ自動化などのタスクに最適です。
We just open-sourced Fireworks Manus, a powerful browser-based agent built using DeepSeek V3 for reasoning and FireLlava 13B for visual understanding.
This agent doesn’t just generate text. It:
→ Navigates the web
→ Clicks buttons, fills out forms
→ Extracts dynamic content…— Fireworks AI (@FireworksAI_HQ) May 23, 2025
■Pixel Reasoner
Pixel Reasonerは、好奇心駆動型強化学習を用いて、モデルが直接ピクセル空間で推論を行う能力を高めることを目指す、新しい視覚的推論の手法です。
モデルは既に公開されており、今後データやコードもリリースされる予定です。
ピクセルレベルでの推論という斬新なアプローチが、今後の視覚的推論モデルの発展にどのような影響を与えるか注目されます。
■Multi-SpatialMLLM
Multi-SpatialMLLMは、MLLMsのマルチフレーム空間理解能力を大幅に向上させるためのフレームワークです。
大規模な専用データセットと包括的なベンチマーク、そして効果的なモデル設計により、ロボティクスや他の現実世界のアプリケーションにおけるMLLMsの可能性を大きく広げる可能性があります。
■Dimple
Dimpleは、世界初の離散拡散マルチモーダル大規模言語モデル(Discrete Diffusion Multimodal Large Language Model: DMLLM)です。
自己回帰型(Autoregressive)と拡散型(Diffusion-based)の命令チューニングを組み合わせたハイブリッドな学習パラダイムを活用しています。
モデルのアーキテクチャはQwenやLLaVAに似ていますが、自己回帰型から拡散型への段階的な学習戦略(autoregressive-then-diffusion training strategy)を導入しています。
■AceReason-Nemotron-14B
AceReason-Nemotron-14Bは、強化学習のみで訓練された、数学とコードの推論において最先端の性能を発揮する140億パラメータのLLMです。
段階的なRL訓練戦略や、数学RLがコード推論にも有効であるという発見など、興味深い知見を提供しています。
■GRIT
GRITは、MLLMsが画像を用いて推論する能力を効率的に学習するための革新的な手法です。
グラウンデッド推論パラダイムと、手動アノテーションを必要としない強化学習アプローチGRPO-GRを組み合わせることで、限られたデータからでも高い性能を発揮します。
■LLaDA-V
LLaDA-Vは、拡散モデルをMLLMの基盤として用い、視覚指示チューニングによって視覚的な理解とそれに基づいた言語生成能力を高めた新しいモデルです。
他の拡散ベースのMLLMsよりも優れた性能を持つとされており、今後の視覚言語処理の研究や応用において注目される可能性があります。
■Scaling Diffusion Transformers Efficiently via μP
Scaling Diffusion Transformers Efficiently via μPは、μP(Maximal Update Parametrization、最大更新パラメータ化)を用いて、拡散Transformer(Diffusion Transformer)を効率的にスケールアップさせるための公式実装を提供するプロジェクトです。
μPは、大規模モデル(例えば、vanilla Transformer)のハイパーパラメータ(HP)選択問題を解決するための有望な手法として最近提案されました。
μPは、異なるモデル幅にわたって最適なHPを安定させ、小規模モデルで探索されたHPを大規模モデルに直接転送(μTransferアルゴリズム)することを可能にし、大規模なスケールでのチューニングコストを大幅に削減します。
その強力な転送性により、μPは大規模言語モデル(LLMs)の事前学習にも応用されています。
本日は以上となります。
それでは、また。
//platform.twitter.com/widgets.js
続きをみる
Views: 0