どんな人向けの記事?
- 生成 AI に興味のある方
- AMD Ryzen AI Max+ 395で動画生成をしたい方・高速化したい方
- AMD Ryzen AI Max+ 395の動画生成速度に興味がある方
環境
Windows@EVO-X2(AMD Ryzen AI Max+ 395、128GB)
背景
- Ryzen AI MAX+395(gfx1151)でUbuntu用のPytorchのビルドを試みたが断念した
- Windowsならgfx1151に対応したPytorchが使えるものの、MIOpenまわりのエラーで動画生成に失敗していた
そんなとき、A-UtaさんがEVO-X2でWan2.1の動画生成に成功したというポストを発見した。
早速A-Utaさんに教えていただいた方法を試したところ、私のWindows環境でも動画生成に成功!
ということで、今回の記事では下記について備忘録的にまとめる。
- Ryzen AI MAX+395(gfx1151)でWan2.1の動画を生成する手順
- 852話さんのani_Wan2_1で動画を生成する方法
- CausVid LoRAで動画生成を高速化する方法
- 生成速度まとめ
Ryzen AI MAX+395(gfx1151)でWan2.1の動画を生成する手順
gitとAMD GPU Driverは導入済みという前提で話を進める。
途中までは以下の手順通りにPowershellでコマンドを打つだけでよい。
- uvの導入(導入してない方のみ)
PS > powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
PS > git clone https://github.com/comfyanonymous/ComfyUI.git
PS > cd ComfyUI
PS > uv python pin 3.12
PS > uv init
PS > Start-BitsTransfer -Source https://github.com/scottt/rocm-TheRock/releases/download/v6.5.0rc-pytorch/torch-2.7.0a0+git3f903c3-cp312-cp312-win_amd64.whl
PS > Start-BitsTransfer -Source https://github.com/scottt/rocm-TheRock/releases/download/v6.5.0rc-pytorch/torchaudio-2.6.0a0+1a8f621-cp312-cp312-win_amd64.whl
PS > Start-BitsTransfer -Source https://github.com/scottt/rocm-TheRock/releases/download/v6.5.0rc-pytorch/torchvision-0.22.0+9eb57cd-cp312-cp312-win_amd64.whl
PS > uv add .\torch-2.7.0a0+git3f903c3-cp312-cp312-win_amd64.whl .\torchaudio-2.6.0a0+1a8f621-cp312-cp312-win_amd64.whl .\torchvision-0.22.0+9eb57cd-cp312-cp312-win_amd64.whl
PS > uv add -r .\requirements.txt
PS > uv add numpy
Wan2.1で動画生成
A-Utaさんに教えていただいたコマンドオプションをつけてComfyUIを起動する。
PS > uv run .\main.py --use-pytorch-cross-attention --force-fp16 --cpu-vae
PS > uv run .\main.py --use-pytorch-cross-attention --force-fp16 --cpu-vae
Checkpoint files will always be loaded safely.
Total VRAM 89977 MB, total RAM 65175 MB
pytorch version: 2.7.0a0+git3f903c3
AMD arch: gfx1151
ROCm version: (6, 5)
Set vram state to: NORMAL_VRAM
Device: cuda:0 AMD Radeon(TM) 8060S Graphics : native
Using pytorch attention
Python version: 3.12.10 (main, May 22 2025, 02:00:39) [MSC v.1943 64 bit (AMD64)]
ComfyUI version: 0.3.39
****** User settings have been changed to be stored on the server instead of browser storage. ******
****** For multi-user setups add the --multi-user CLI argument to enable multiple user profiles. ******
ComfyUI frontend version: 1.21.6
[Prompt Server] web root: C:\Users\gosrum\Documents\AI\test\ComfyUI\.venv\Lib\site-packages\comfyui_frontend_package\static
Import times for custom nodes:
0.0 seconds: C:\Users\gosrum\Documents\AI\test\ComfyUI\custom_nodes\websocket_image_save.py
Starting server
To see the GUI go to: http://127.0.0.1:8188
無事起動出来たら上記のような表示が出るので、webブラウザでhttp://127.0.0.1:8188にアクセスするとComfyUIが起動できる。
ワークフロー→テンプレートを参照→ビデオ→Wan 2.1 テキストからビデオへ
を選択すると、モデルがないといわれるので、すべてダウンロードしてから然るべきディレクトリに入れる。
ComfyUI\models\vae\wan_2.1_vae.safetensors
ComfyUI\models\text_encoders\umt5_xxl_fp8_e4m3fn_scaled.safetensors
ComfyUI\models\unet\wan2.1_t2v_1.3B_fp16.safetensors
ファイルの格納が終わったら、ワークフロー下部の実行する
ボタンを押すことで動画を生成できる。
ani_Wan2_1を試す
852話さんのani_Wan2_1を試す。
civitaiでani_Wan2_1_14B_fp8_e4m3fnか1.3Bのt2vモデルをダウンロードし、ComfyUI\models\unet\
に格納する。
ComfyUIをリロードし、ワークフロー上の拡散モデルを読み込む
のunet_nameを上記に変更し、プロンプトにanime style
を追加することで、アニメスタイルの動画を生成できる。
生成時間は1.3Bならモデル差し替え前と同じ10分。14Bは83分程度かかったが、クオリティは明らかに高くなっている。次節では高速化を試みる。
CausVid LoRAを試す
私は、動画生成に関しては完全にド素人であり、動画生成にはこんな時間かかるのか。。。と思っていたのだが、下記のポストによると動画生成を高速化する手段がいくつかあるらしい。
どちらにも共通しているのはCausVid LoRAで、step数を減らすことで劇的に高速化できるという夢のようなLoRAらしい。
他の手法については追々挑戦するとして、まずは大きな効果を期待できそうなCausVid LoRAを早速導入してみる。
まずはLoRAモデルをダウンロードする。とりあえずHuggingfaceから下記の二つのモデルを入手し、ComfyUI\models\loras
に格納する。
Wan21_CausVid_14B_T2V_lora_rank32.safetensors
Wan21_CausVid_bidirect2_T2V_1_3B_lora_rank32.safetensors
次にどうやってLoRAを適用するかだが、私はComfyUIでLoRAを適用したことがないのでこのAIエージェント時代にも関わらずweb上でワークフローを探すことにした。
そのまま使えるものは見つからなかったので、どうすれば使えるかを確認したところ、どうもこんな感じでLoRAを読み込めば使えるらしい。
-
変更前
-
変更後
あとはワークフロー中のパラメータを下記のように変更した。
- LoRA:モデルの強度→0.5
- Kサンプラー
- ステップ:5(4-8推奨らしい)
- cfg:1.0
参考になるかわからないが、一応ワークフローも書き留めておく…と思ったが、確認したらここに記載するには長すぎたので割愛する。まあ上記の情報があれば再現できるはず。
生成時間まとめ
VAEをCPUで処理させたことの影響
最初に述べたように、現状Ryzen AI MAX+ 395では動画生成時にVAEをGPUで処理させようとするとエラーが出るため、CPUで処理させている。
CPUで処理するということは生成時間が遅くなるわけだが、その影響がどの程度あるかをFLUX.1の画像生成で検証する。※FLUX.1はGPUでも処理できる
結果は以下の通り(計測したデータをClaude Sonnet 4で可視化したもの)。
上記からわかることとしては、GPUで処理しても単純に何倍速くなるとはいえず、schnellでもdevでもほとんど同じだけ短くなることぐらい?
とはいえ、GPUで処理することで速くなるであろうことは間違いないので、このあたりの問題も解決する正式なサポートを期待する。できればUbuntuでも使えるようにして欲しい。
フレーム数依存性
うみゆきさんのポストに長尺動画もいけるのでは?というコメントがあったので、1秒単位で生成時間を計測し可視化してみた。結果はこちら。
ここからわかることは下記の通り。
- 支配的なのはKサンプラーの部分で、frame数に対して非線形的に生成時間が増大する。
- 対してVAEの時間は線形的に生成時間が増大する。
上記から、VAEの処理時間は支配的でなく、残念ながらGPUによる高速化もそこまで期待できなさそうであることがわかる。
また、VRAMの容量よりもframe数の増加による非線形的な計算時間の増加が問題になりそうだと分かった。というわけで、慣れるまではデフォルトの33frames(2秒)で運用することにする。
データの詳細はこちら。
今回の記事では、下記についてまとめました。
- Ryzen AI MAX+395(gfx1151)でWan2.1の動画を生成する手順
- 852話さんのani_Wan2_1で動画を生成する方法
- CausVid LoRAで動画生成を高速化する方法
- 生成速度まとめ
いよいよRyzen AI MAX+395で動画生成ができるようになりました。
t2vについては色々と検証ができたので、次はi2vにも挑戦したいと思います。
最後まで読んでいただきありがとうございました。次回もぜひよろしくお願いします。
Views: 0