📌 概要
この記事では、AIを活用した動画生成の実験過程とその結果について詳しく述べています。最初に、イラストや画像を基にした動画生成の試行が行われましたが、形状の破綻が見られました。これを改善するために、被写体を静止させた状態で背景を動かす方法を試みた結果、良好な結果が得られました。
次に、Wan 2.1を使ったimg2videoの実行には多くのファイルが必要であり、生成プロセスには約18分かかることが指摘されています。しかし、VAE処理において”Out of Memory”(OOM)が発生する問題が報告され、これを回避するために特定の設定が必要でした。その後、タイル処理を利用することでメモリ負荷を軽減し、生成時間も短縮できることが示されました。
全体として、動画生成には高いPCスペックが要求され、試行錯誤の中で最適なワークフローを模索していることが伝わります。未来の改善にも期待が寄せられています。
📖 詳細
生成結果
森を歩く狼
- 動きはあるが、思っていたほどではない。
- 動画の精度は悪くなさそうだが、実写と比較するとイラストの動きにはまだ課題が残る。
- 歩かせるという試みは形状破綻を招いたため、背景を動かす方向で再挑戦した。
森の水辺に佇む狼
- 被写体の動きをなくし、背景を生成し直したところ、効果的な動きが得られた。
- 生成時間は約5分で、思ったより早かった。
Inference:Wan Image to Video
Wan 2.1を使用し、任意の画像から動画を生成する機能に挑戦。以下は必要なファイルと生成に関する情報。
必要なファイルの準備
多くのファイルが必要であり、以下の4つを用意する必要がある:
- Model
- Wan 2.1 I2V 480p fp8 e4m3fn
- VAE
- Text Encoder
- CLIP Vision
最初は軽負荷のfp8系から始め、後に品質向上を目指すのが良い。
生成に失敗する
生成過程でディスプレイがブラックアウトし、結果が乱れる問題が発生。VAE処理でのメモリ不足が原因。
VAEのOut of Memoryを回避する
- CPU-vaeオプションを追加することで解決。
- VAE処理の遅延はもあるが、問題は回避できた。
ComfyUI-WebUI:Wan 2.1 image to Video
VAEデコードタイルを使用する
- VAEデコードでタイルサイズを指定しメモリ負荷を軽減できる。
- タイルサイズ256で処理を行い、快適に生成した。
生成結果
- プロンプトを指定し、生成時間は約9分。480p生成より720pは時間がかかるため、注意が必要。
未解決:Exception Code: 0xC0000005
- モデルの読み込み時に発生するフリーズ問題。
- 解決策は未だ見つかっておらず、グラフィックドライバの変更も効果なし。
GGUFモデルを使用する
- GGUFモデルは軽量化されたもので、容量は半分だが精度が低下する可能性がある。導入は簡単で、問題を解決できる可能性が高い。
AMD GPUでの実行について
- 現在、AMD GPUでは動画生成のメモリ消費が高く、冗長なプロセスが必要。
最後に
動画生成には高いPCスペックが求められ、特にメモリ周りの課題が多い。今後の進展に期待するが、現時点ではワークフローの最適化が必要。
🧭 読みどころ
この記事では、動画生成技術に関する情報を提供しています。特に、”Wan Image to Video”を使用して、任意の画像を動画に変換するプロセスが解説されています。読者は、生成の成功率を上げるためのヒントや、必要なファイルの準備、ハードウェア要件、生成過程でのトラブルシューティングを学べます。著者の試行錯誤を通じた印象的なエピソードもあり、動画生成の世界の現状を理解する手助けとなるでしょう。
💬 編集部メモ
この記事を取り上げた理由は、動画生成技術の進化とその課題を実体験として詳しく述べている点に興味を持ったからです。特に「初めはfp8系から始めると良い」というアドバイスが印象的で、多くの読者が試行錯誤を楽しむ際の指針となるでしょう。動画生成には高いPCスペックが必要ですが、この過程を通じて新しい技術に挑戦してみることも一つの楽しみかもしれません。一度試してみてはいかがでしょうか。
※以下、投稿元
▶ 続きを読む
Views: 2