ホームニューステックニュースRyzen AI MAX+395（Windows）でWan2.1を動かす

Ryzen AI MAX+395（Windows）でWan2.1を動かす

2025年6月4日

2

 どんな人向けの記事？生成 AI に興味のある方
AMD Ryzen AI Max+ 395で動画生成をしたい方・高速化したい方
AMD Ryzen AI Max+ 395の動画生成速度に興味がある方
環境
Windows＠EVO-X2（AMD Ryzen AI Max+ 395、128GB）

 背景Ryzen AI MAX+395（gfx1151）でUbuntu用のPytorchのビルドを試みたが断念した
Windowsならgfx1151に対応したPytorchが使えるものの、MIOpenまわりのエラーで動画生成に失敗していた
そんなとき、A-UtaさんがEVO-X2でWan2.1の動画生成に成功したというポストを発見した。

    
    
  

    
    
  
https://x.com/UtaAoya/status/1929148813240918023
早速A-Utaさんに教えていただいた方法を試したところ、私のWindows環境でも動画生成に成功！
https://x.com/gosrum/status/1929384258390442059
ということで、今回の記事では下記について備忘録的にまとめる。
Ryzen AI MAX+395（gfx1151）でWan2.1の動画を生成する手順
852話さんのani_Wan2_1で動画を生成する方法

CausVid LoRAで動画生成を高速化する方法

生成速度まとめ

 Ryzen AI MAX+395（gfx1151）でWan2.1の動画を生成する手順gitとAMD GPU Driverは導入済みという前提で話を進める。


https://gitforwindows.org/


https://www.amd.com/ja/support/download/drivers.html
途中までは以下の手順通りにPowershellでコマンドを打つだけでよい。
uvの導入（導入してない方のみ）

PS > powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"


PS > git clone https://github.com/comfyanonymous/ComfyUI.git
PS > cd ComfyUI
PS > uv python pin 3.12
PS > uv init
PS > Start-BitsTransfer -Source https://github.com/scottt/rocm-TheRock/releases/download/v6.5.0rc-pytorch/torch-2.7.0a0+git3f903c3-cp312-cp312-win_amd64.whl
PS > Start-BitsTransfer -Source https://github.com/scottt/rocm-TheRock/releases/download/v6.5.0rc-pytorch/torchaudio-2.6.0a0+1a8f621-cp312-cp312-win_amd64.whl
PS > Start-BitsTransfer -Source https://github.com/scottt/rocm-TheRock/releases/download/v6.5.0rc-pytorch/torchvision-0.22.0+9eb57cd-cp312-cp312-win_amd64.whl
PS > uv add .\torch-2.7.0a0+git3f903c3-cp312-cp312-win_amd64.whl .\torchaudio-2.6.0a0+1a8f621-cp312-cp312-win_amd64.whl .\torchvision-0.22.0+9eb57cd-cp312-cp312-win_amd64.whl
PS > uv add -r .\requirements.txt
PS > uv add numpy
!
公式のpytorchよりもscotttさんのビルドされたwhlの方が高速に生成できるため、そちらを採用している（6/2現在）
https://github.com/scottt/rocm-TheRock/releases/tag/v6.5.0rc-pytorch

 Wan2.1で動画生成A-Utaさんに教えていただいたコマンドオプションをつけてComfyUIを起動する。
https://x.com/UtaAoya/status/1929291297711440249

PS > uv run .\main.py --use-pytorch-cross-attention --force-fp16 --cpu-vae

!
この--cpu-vaeが動画生成を成功させるためのカギである。ただし、例えばFlux.1などではこのオプションをつけなくても生成でき、むしろ付けないほうが生成速度が速い。
よって、このオプションはVAEの処理でMIOpenまわりのエラーが出た時だけ付けるようにすること。

PS > uv run .\main.py --use-pytorch-cross-attention --force-fp16 --cpu-vae
Checkpoint files will always be loaded safely.
Total VRAM 89977 MB, total RAM 65175 MB
pytorch version: 2.7.0a0+git3f903c3
AMD arch: gfx1151
ROCm version: (6, 5)
Set vram state to: NORMAL_VRAM
Device: cuda:0 AMD Radeon(TM) 8060S Graphics : native
Using pytorch attention
Python version: 3.12.10 (main, May 22 2025, 02:00:39) [MSC v.1943 64 bit (AMD64)]
ComfyUI version: 0.3.39
****** User settings have been changed to be stored on the server instead of browser storage. ******
****** For multi-user setups add the --multi-user CLI argument to enable multiple user profiles. ******
ComfyUI frontend version: 1.21.6
[Prompt Server] web root: C:\Users\gosrum\Documents\AI\test\ComfyUI\.venv\Lib\site-packages\comfyui_frontend_package\static

Import times for custom nodes:
   0.0 seconds: C:\Users\gosrum\Documents\AI\test\ComfyUI\custom_nodes\websocket_image_save.py

Starting server

To see the GUI go to: http://127.0.0.1:8188

無事起動出来たら上記のような表示が出るので、webブラウザでhttp://127.0.0.1:8188にアクセスするとComfyUIが起動できる。
ワークフロー→テンプレートを参照→ビデオ→Wan 2.1 テキストからビデオへを選択すると、モデルがないといわれるので、すべてダウンロードしてから然るべきディレクトリに入れる。
ComfyUI\models\vae\wan_2.1_vae.safetensors
ComfyUI\models\text_encoders\umt5_xxl_fp8_e4m3fn_scaled.safetensors
ComfyUI\models\unet\wan2.1_t2v_1.3B_fp16.safetensors
ファイルの格納が終わったら、ワークフロー下部の実行するボタンを押すことで動画を生成できる。
!
最初の一回だけ時間が長くなるようだが、2回目以降は多少速くなりデフォルトで約10分程度で生成できるはず。

 ani_Wan2_1を試す852話さんのani_Wan2_1を試す。
https://note.com/852wa/n/nba242ef7ef4c
civitaiでani_Wan2_1_14B_fp8_e4m3fnか1.3Bのt2vモデルをダウンロードし、ComfyUI\models\unet\に格納する。
ComfyUIをリロードし、ワークフロー上の拡散モデルを読み込むのunet_nameを上記に変更し、プロンプトにanime styleを追加することで、アニメスタイルの動画を生成できる。
生成時間は1.3Bならモデル差し替え前と同じ10分。14Bは83分程度かかったが、クオリティは明らかに高くなっている。次節では高速化を試みる。
https://x.com/gosrum/status/1929451150002028948

 CausVid LoRAを試す私は、動画生成に関しては完全にド素人であり、動画生成にはこんな時間かかるのか。。。と思っていたのだが、下記のポストによると動画生成を高速化する手段がいくつかあるらしい。
https://x.com/umiyuki_ai/status/1929460745651020113


https://x.com/8co28/status/1929421784035831840
どちらにも共通しているのはCausVid LoRAで、step数を減らすことで劇的に高速化できるという夢のようなLoRAらしい。
他の手法については追々挑戦するとして、まずは大きな効果を期待できそうなCausVid LoRAを早速導入してみる。
まずはLoRAモデルをダウンロードする。とりあえずHuggingfaceから下記の二つのモデルを入手し、ComfyUI\models\lorasに格納する。
https://huggingface.co/Kijai/WanVideo_comfy/tree/main
Wan21_CausVid_14B_T2V_lora_rank32.safetensors
Wan21_CausVid_bidirect2_T2V_1_3B_lora_rank32.safetensors
次にどうやってLoRAを適用するかだが、私はComfyUIでLoRAを適用したことがないのでこのAIエージェント時代にも関わらずweb上でワークフローを探すことにした。
そのまま使えるものは見つからなかったので、どうすれば使えるかを確認したところ、どうもこんな感じでLoRAを読み込めば使えるらしい。
変更前
変更後
あとはワークフロー中のパラメータを下記のように変更した。
LoRA：モデルの強度→0.5
Kサンプラー
ステップ：5（4-8推奨らしい）
cfg：1.0

!
CausVid LoRAを使うと劇的に高速化できるが、多少品質が落ちているように感じる（気のせいかも）。気になる場合は上記のパラメータを調整されたい。
参考になるかわからないが、一応ワークフローも書き留めておく…と思ったが、確認したらここに記載するには長すぎたので割愛する。まあ上記の情報があれば再現できるはず。

 生成時間まとめ
 VAEをCPUで処理させたことの影響最初に述べたように、現状Ryzen AI MAX+ 395では動画生成時にVAEをGPUで処理させようとするとエラーが出るため、CPUで処理させている。
CPUで処理するということは生成時間が遅くなるわけだが、その影響がどの程度あるかをFLUX.1の画像生成で検証する。※FLUX.1はGPUでも処理できる
結果は以下の通り（計測したデータをClaude Sonnet 4で可視化したもの）。
上記からわかることとしては、GPUで処理しても単純に何倍速くなるとはいえず、schnellでもdevでもほとんど同じだけ短くなることぐらい？
とはいえ、GPUで処理することで速くなるであろうことは間違いないので、このあたりの問題も解決する正式なサポートを期待する。できればUbuntuでも使えるようにして欲しい。

 フレーム数依存性うみゆきさんのポストに長尺動画もいけるのでは？というコメントがあったので、1秒単位で生成時間を計測し可視化してみた。結果はこちら。


ここからわかることは下記の通り。
支配的なのはKサンプラーの部分で、frame数に対して非線形的に生成時間が増大する。
対してVAEの時間は線形的に生成時間が増大する。
上記から、VAEの処理時間は支配的でなく、残念ながらGPUによる高速化もそこまで期待できなさそうであることがわかる。
また、VRAMの容量よりもframe数の増加による非線形的な計算時間の増加が問題になりそうだと分かった。というわけで、慣れるまではデフォルトの33frames（2秒）で運用することにする。
データの詳細はこちら。

今回の記事では、下記についてまとめました。
Ryzen AI MAX+395（gfx1151）でWan2.1の動画を生成する手順
852話さんのani_Wan2_1で動画を生成する方法

CausVid LoRAで動画生成を高速化する方法

生成速度まとめ
いよいよRyzen AI MAX+395で動画生成ができるようになりました。
t2vについては色々と検証ができたので、次はi2vにも挑戦したいと思います。
最後まで読んでいただきありがとうございました。次回もぜひよろしくお願いします。