

2025年7月10日、AMDが新たに発表した画像生成AI「Nitro-T」は、単にテキストから画像を生成するだけでなく、そのトレーニングを非常に短時間で行えるのが特徴です。この技術は、32基の自社GPU「Instinct MI300X」を用いることで、ゼロから1日未満でモデルをトレーニングすることが可能となっています。
Nitro-Tの特長
Nitro-Tは、Diffusion Transformerモデルに基づいており、トレーニング効率の向上を目指しています。AMDは、2024年11月にリリースした前モデル「Nitro-1」から、この技術の進化を続けてきました。Nitro-Tは、トレーニングコストをオープンソースのPixArt-αと比較して約14分の1に削減できる点でも注目されています。
モデルには2つのバリエーションがあり、512ピクセル(6億パラメータ)または1024ピクセル(12億パラメータ)の画像生成に最適化されています。これらは、Llama 3.2 1Bを用いてテキストコンディショニングを行い、高速なトレーニングを実現しています。
性能比較
Nitro-Tは競合他社の画像生成AIと比較して、トレーニング効率や推論レイテンシが非常に高いことが確認されています。具体的なデータがグラフで示されており、優れた性能を実証しています。以下の画像は、実際にNitro-Tが生成したアウトプットのサンプルです。
-
Nitro-T-1.2Bで生成した画像
-
Nitro-T-0.6Bで生成した画像
技術的アプローチ
AMDは、遅延マスキング戦略やディープ圧縮オートエンコーダーといった革新的な技術を用いて、トレーニング時間の大幅短縮を実現しています。これにより、独立した開発者や小規模なチームも効率的にニーズに合ったモデルをトレーニングすることができます。
データの公開
最終的に、Nitro-T-1.2BおよびNitro-T-0.6BのモデルデータはHugging Faceで公開されており、研究者や開発者が自由にアクセスできるようになっています。
AMDは、このアプローチが生成AIの研究と開発において新たな地平を切り開くことを期待しています。
🧠 編集部より:
AMDがリリースした画像生成AI「Nitro-T」について
AMDの最新の画像生成AI、Nitro-Tは、テキストから画像を生成する高効率なディフュージョンモデルです。特に、32基のInstinct MI300Xを使用し、わずか1日未満でトレーニングを完了させることができる点が特徴です。これにより、トレーニングコストはおよそ14分の1に削減され、より迅速な成果が期待できます。
これまでの成果を踏まえ、AMDは2024年11月にリリースしたNitro-1をベースに、リソース効率の高い手法を取り入れています。これにより、トレーニング効率の向上が図られています。モデルには、512ピクセル用の6億パラメータのDiTモデルと、1024ピクセル用の12億パラメータのMMDiTモデルの2つのバリエーションがあります。
トレーニング効率の向上
Nitro-Tの開発には、いくつかの先進的な技術が活用されています。例えば、自己注意メカニズムの計算負荷を軽減するために、トークンシーケンスの長さを短縮する手法が採用されています。特に、遅延マスキング戦略により、トークンの重要な情報が保持されるよう工夫されています。
実際の成果物
実際にNitro-Tで生成された画像も公開されており、その品質やディテールに注目を集めています。これにより、独立した開発者や小規模なチームでも、迅速にモデルをトレーニングや微調整できるようになり、アクセスの民主化が進むことが期待されています。
さらなるリソース
このように、AMDのNitro-Tは技術革新を駆使し、画像生成AIの新たなスタンダードを築く可能性を秘めています。
-
キーワード: Nitro-T
このキーワードは、AMDが新たに発表した画像生成AIの名称であり、特にそのトレーニング効率や革新性を強調しています。
※以下、出典元 ▶ 元記事を読む
Views: 0