スタンフォード大学のManeesh Agrawala教授とソフトウェア開発者のLvmin Zhang氏は、ミドルスペックGPUでも長尺の動画を生成できるAIモデル「FramePack」を公開した。Githubで入手できる。

 両氏が発表した論文の公式実装であり、動画生成時において次のフレームを予測しながら動画の生成を行なう「次フレーム予測モデル(Next-Frame Prediction Models)」。1枚の画像とプロンプトから動画を生成するが、ここでは「入力情報(コンテキスト)の圧縮/再構成」や「長時間生成に伴う品質の低下(ドリフト)の防止」などを行なうことで、結果的にVRAM容量が6GBしかないビデオカードでも高品質で長時間の動画生成が可能となっている。

 FramePackのリポジトリでは動作要件として、最低6GBのVRAMを搭載したGeForce RTX 30以降のビデオカードとWindowsもしくはLinux OS環境が提示されている。1フレームの生成にかかる時間はRTX 4090の場合最適化なしで2.5秒、高速化技術のTeaCacheを使用した場合は1.5秒となっており、ノートPC向けのRTX 3070 Ti Laptopや3060 Laptopを使用した場合は約4倍から8倍の時間がかかるとしている。

 実際にFramePackを使用して生成した動画は、FramePackのプロジェクトページで確認することができる。



フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link