🧠 概要:
概要
この記事では、最近の生成AIに関する新技術やツールの情報を提供しており、特に新たに発表された生成AIモデルや機能、アプリケーションについて解説しています。各項目では、それぞれの技術の特徴、機能、リリース予定日などが述べられています。
要約(箇条書き)
-
Claude 4(予告)
- 新しいAIモデルが間もなく登場。
- GoogleのGeminiが注目される中、Claude 4が競争に参加。
-
NovelAI Diffusion V4.5 Full
- アニメやファーリー風の画像生成に特化。
- データセットが更新され、生成品質の向上が期待される。
-
Viggle LIVE
- リアルタイムでAIビデオ生成を提供。
- キャラクターの入れ替えや動きのキャプチャが可能。
-
Clarity AI
- 高性能な画像アップスケーリングを行うオープンソースツール。
- 使いやすさと高解像度の出力が特徴。
-
3DTown
- 革新的な3D街の生成ツール。
- トップダウン画像から高品質な3Dシーンを作成。
-
Elastic Reasoning
- 新しい推論フレームワークの提案。
- 推論プロセスの分離により信頼性を向上。
-
AICameraRot
- 無料のカメラ位置を回転させるソフト。
-
ZBrush Core&Core Miniの終了
- ソフトがFreemiumへ移行予定。
-
Mirokaï
- 感情を理解し自然な対話を行う人型ロボット。
-
Flowith Neo AI
- YouTube動画を基にブログ記事を生成するAIエージェント。
-
Skywork Super Agents
- 業務効率を劇的に改善するAIツール。
-
Video Marketing AI Agent
- 自動でバズるクリップを作成し、投稿するエージェント。
- MMaDAとAnytime Reasoning
- 推論とマルチモーダルの新しいアプローチを提案。
この記事は、生成AIを取り巻く最新の情報を包括的に紹介しています。
『ZBrush Core&Core Miniが終了』
『Mirokaï』
『Flowith Neo AI』
まいどです。
本日の生成AIニュース+テクノロジー情報。
■Claude 4(予告)
Claude 4がもうすぐ登場するとの事です。
先日のGoogleの怒涛のラッシュでGeminiが1位奪還したと思ったら、すぐにそれも入れ替わりそうです。
“Claude 4 is here” – “Try Claude Sonnet 4 and Claude Opus 4 today”
“Try Claude Sonnet 4 or Claude Opus 4 for Anthropic’s smartest models yet.”
“Not intended for production use. Subject to strict rate limits”
“show_raw_thinking” / “show_raw_thinking_mechanism”
(not available… pic.twitter.com/615BWDrWJk
— Tibor Blaho (@btibor91) May 21, 2025
■NovelAI Diffusion V4.5 Full
NovelAI Diffusion V4.5 Fullは、NovelAIが提供するAIを利用した画像生成ツールで、特にアニメやファーリー(擬人化動物)スタイルの画像生成に特化しています。「V4.5 Full」は、このツールの最新バージョンであり、V4.5 Curatedに比べてより包括的なデータセットを使用しており、データも1か月分更新されています。
画像の忠実度(fidelity)と細部(details)の大幅な向上が図られており、ユーザーが生成する画像の品質がさらに向上しています。
「来週」公開予定とされています。
Following the release of V4.5 Curated, we are excited to announce V4.5 Full will be available next week. Stay tuned for more info along with sneak peaks from our model testers! pic.twitter.com/nFkB8SpE0r
— NovelAI (@novelaiofficial) May 21, 2025
■Viggle LIVE
Viggle LIVEは、ViggleAIが開発したリアルタイムのAIビデオ生成ツールです。
このツールを使うと、画像とウェブカメラを使って、リアルタイムでキャラクターを入れ替えたり、動きをキャプチャーしたり、ビデオを生成することができます。
Vチューバーへの敷居がどんどん低くなっている感じです(売れる売れないは別ですが)。
Today, we introduce the next evolution in AI video generation.
Meet Viggle LIVE: generate video, capture motion, and swap characters — in real time! With just an image and your webcam, you can transform into anyone live.
It opens the door to creative applications such as:
-… pic.twitter.com/DxzDCEUttb— ViggleAI (@ViggleAI) May 20, 2025
■Clarity AI
Clarity AIは、高性能な画像アップスケーリングと画質向上機能を備えた、強力な無料・オープンソースのツールです。
Magnificの代替となるポテンシャルを持ち、多様な利用方法が提供されているため、幅広いユーザーにとって魅力的な選択肢となるでしょう。
特に、ComfyUIやA1111といったAI画像生成ツールを利用しているユーザーにとっては、既存のワークフローに簡単に組み込める点が大きなメリットです。
✨ I increased the max resolution for my open-source upscaler to 20,000 x 20,000 pixels (or 400 megapixels) 🤯
This makes it by far the highest resolution AI upscaler available
It takes 26 minutes to run on an A100 GPU 80GB and produces a 100MB JPG file 😱
The higher upscale… pic.twitter.com/jgOE2CbwyL
— philz1337x (@philz1337x) May 21, 2025
■3DTown
3DTown: Constructing a 3D Town from a Single Imageは、単一のトップダウン画像から高品質な3Dの街のシーンを生成するための、有望な新しいトレーニング不要のフレームワークです。
領域ベースの生成と空間認識型3Dインペインティングという洗練されたアプローチにより、従来の単一画像からの3D生成モデルの課題を克服し、よりリアルで一貫性のある3Dシーンの合成を可能にします。
■Elastic Reasoning
Elastic Reasoningは、スケーラブルなChain of Thoughts(CoT)を実現するための新しいフレームワークです。
CoTは、LLMに段階的な思考プロセスを生成させることで、複雑な推論タスクの性能を向上させる手法です。
Elastic Reasoningは、この推論プロセスを「思考(thinking)」フェーズと「解答(solution)」フェーズに明確に分離し、それぞれに独立した計算予算を割り当てることで、リソース制約下での信頼性を大幅に向上させることを目指します。
■AICameraRot
AICameraRotは、とりにくさんが無料公開された、画像のカメラ位置を回転できるAIフリーソフトです。
詳細はとりにくさんのサイトをご覧下さい。
■poselr_framepack
852話さんが公開された、Frame PackのLoRAとワークフローです。
さらにそれをとりにくさんが改造版を公開しました。
ダウロードはXのリンクからになります。
まだあんまり精度よくないからお試し版テスト配布します(LoRAとワークフローとサンプルイメージが幾つか入ってます)https://t.co/6Fjkz0ttre
あんまりうまくいかないかも。 https://t.co/GxyfGp2WaD
— 852話(hakoniwa) (@8co28) May 21, 2025
852話さんから許可をいただけたので改造版を便乗配布!!https://t.co/46NWCFKF9R
キャラクターの全身デザインとポーズ素体を入力することで、キャラクターのポーズを変えてくれます。
キャラクターの表情や眼鏡は全身デザイン側の方の影響受けがちですね。面白ー! https://t.co/Wsh3x9t0ZT pic.twitter.com/CZDHR9kNUm— とりにく (@tori29umai) May 22, 2025
■Vid2World
Vid2Worldは、既存の高性能なビデオ拡散モデル(例:SORA)を、インタラクティブなワールドモデル(例:Genie)に変換するための新しい汎用的なアプローチです。
フルシーケンス拡散の高い忠実性を活用し、因果的、自己回帰的、かつ行動条件付きの生成を可能にすることを目指しています。
■Skywork Super Agents
Skywork Super Agentsは、AIを活用して業務効率を大幅に向上させるツールで、8時間の作業を8分に短縮すると主張されています。
ツイートによると、Skywork Super Agentsは、ドキュメント、スライド、シート、ウェブページ、ポッドキャストなどのコンテンツ作成を単一のプロンプトから生成可能で、作業時間を最大90%削減します。
例として、NVIDIA株の分析、Tesla Cybertruckの競合分析、家族予算の概要など、様々なタスクが挙げられています。
■Video Marketing AI Agent
Video Marketing AI Agentは、Overlapという会社が開発した、ビデオから自動的に viral(バズる可能性のある)クリップを作成し、それをソーシャルメディアに投稿する自律的なエージェントです。
Overlapは無料で試すことができ、リンクが提供されています。
Introducing the first ever video marketing AI agent
Overlap is an autonomous agent that creates viral clips from any video and posts them to your socials
The best way to get your content seen by the people who matter
Try it out for free today (link below) pic.twitter.com/0uJRC2kbHe
— Overlap (@Overlap_AI) May 19, 2025
■MMaDA
MMaDAは、テキスト推論、マルチモーダル理解、テキストから画像生成といった多様な領域で優れた性能を発揮することを目指して設計された、新しいファミリーのマルチモーダル拡散基盤モデルです。
■Anytime Reasoning
Optimizing Anytime Reasoning via Budget Relative Policy Optimizationは、大規模言語モデル(LLM)における「Anytime Reasoning(任意の時間で推論を行う能力)」を最適化するための新しい手法を提案する研究です。
特に、計算予算が限られた状況下でも、早期に質の高い推論結果を得られるようにモデルを訓練することに焦点を当てています。
■Web-Shepherd
Web-Shepherdは、ウェブエージェントのために特別に設計された、初のプロセス報酬モデル(Process Reward Model: PRM)です。
ウェブナビゲーションのタスクにおいて、学習と推論時の意思決定のために、解釈可能でコスト効率の高いフィードバックをステップレベルで提供します。
■ZBrush Core&Core Miniが終了
ZBrush Core&Core Miniが終了で、今後はFreemium(無償・機能限定版)に移行予定だそうです。
個人的にはFreeFormをもっと安く使わせてほしいですが……。
まぁGeomagic(かつてのファントム)からして高いから無理ですかね(そもそもモデリングからサーフェイス作っての金型用だし)。
■Mirokaï
Mirokaïは、Enchanted Toolsという会社が開発した人型ロボットです。
GoogleのAIモデル「Gemini 2.0」と接続され、感情を感知し、人々の感情的意図を理解し、自然な声で対話し、3D環境を感知し、物理的なオブジェクトを認識する能力を示しています。
After the cute Mirokaï humanoid robot was connected to Gemini2.0, its embodied intelligence evolved. It has emotional perception, understands people’s emotional intentions, can interact with people in natural voice, perceive the environment in 3D, and recognize real physical… pic.twitter.com/dzlVLTxkdv
— CyberRobo (@CyberRobooo) May 21, 2025
■Flowith Neo AI
Flowith Neo AIが、YouTubeの23分間のOpenAI Codexリリース動画を視聴し、その内容を基にブログ記事を作成したとの事です。
このプロセスは単一の英語のプロンプトから実行されたそうです。
This AI Agent literally watched 23-mins long OpenAI Codex release video on YouTube and created a blog post from it.
All of this from a single English prompt. pic.twitter.com/UQ5wLCqPRL
— Shubham Saboo (@Saboo_Shubham_) May 20, 2025
本日は以上となります。
ついでに話題にちらっと挙げた、FreeFormとはなんぞやと言う方の為に、リンクを張っておきます。
まぁ簡単に言えば、3D上で粘土(ボクセルと言う粉みたいな粒子)をコネコネできるようなツールで、主に医療関係やモデリングで使用されている企業向けツールです(なので非常に高い)。
でもこれが楽しいんですよねー。
抜き勾配とか勝手につけてくれるし、使用時の手応えがたまらないですw
それでは、また。
//platform.twitter.com/widgets.js
続きをみる
Views: 2