ホームニューステックニュース【強化学習】拡散モデルで世界モデルを作ったDIAMONDを解説・実装 #Python - Qiita

【強化学習】拡散モデルで世界モデルを作ったDIAMONDを解説・実装 #Python – Qiita

By インモビ運営局

2025年5月10日

0

4

【強化学習】拡散モデルで世界モデルを作ったDIAMONDを解説・実装 #Python - Qiita

この記事は自作している強化学習フレームワークの解説記事です。

・フレームワークの記事
https://qiita.com/pocokhc/items/a2f1ba993c79fdbd4b4d

・GitHub
https://github.com/pocokhc/simple_distributed_rl

WorldModelシリーズの最新作です。
夢の次はダイアモンドです。

前：Dreamer3

毎回名前で遊んでいますね。

前々回のDreamerV2では内部表現を連続空間（ガウス分布）から離散空間（カテゴリカル分布）に変更することで、性能の大幅な向上が実現されました。
この改善の要因として、未来の状況を予測する時に生じる「予測誤差の累積」を緩和できたことが挙げられます。

連続空間では、初期の予測誤差がそのまま次のステップへと伝播していくため、長いステップ予測すると精度の劣化が顕著になります。
一方で離散空間では、内部表現が有限なカテゴリに丸められるので、各ステップでの誤差が一定範囲に収まり、誤差の影響が抑えられると考えられます。
この性質により、安定した長期予測が可能になり、結果として高い予測性能が得られました。

しかし、内部表現の離散化は情報の損失というトレードオフがあります。
たとえば、遠くに小さく映る歩行者のような小さい情報は離散化によって捉えにくくなり、こうした情報の欠落が予測精度の低下につながる可能性があります。

この課題に対して近年の画像生成タスクで主流となっている拡散モデル（diffusion models）の適用を考えます。
拡散モデルは以下の特性があります。

画像をモデル化可能（画像が元々離散表現）
条件付けが簡単で、モード崩壊を起こすことなく多様な分布を表現できる

DIAMONDはこの拡散モデルの特性に注目し、WorldModelを別の角度から離散表現したアプローチとなり、従来の離散化がもつ「情報の欠落」という弱点を拡散モデル生成能力によって補った手法となります。

参考

拡散モデルを知っていた方が理解しやすいと思います。
拡散モデルについては以前書いた記事をどうぞ。

・[拡散モデル入門] ゼロから理解する拡散モデルの最新理論（図解付き）

DIAMONDでは強化学習の環境として部分観測マルコフ決定過程（POMDP）を仮定しています。（POMDPについては過去の記事を参照）
POMDPではエージェントが環境の完全な状態を直接観測できないため、過去の観測と行動の履歴をもとに次の状態を予測します。

具体的には以下の条件付き確率分布になります。

$$p(x_{t+1}|x_{\leq t}, a_{\leq t})$$

ここで $x_{\leq t}$ および $a_{\leq t}$ はそれぞれ時刻 $t$ までの観測と行動の履歴を表し、この条件の元で次の状態 $x_{t+1}$ を予測します。

イメージ図は以下です。（論文より）

一番上の行が強化学習におけるステップで、状態 $x^0$、ポリシー $\pi_{\phi}$、アクション $a$ となり、横軸が各ステップ $t$ を表しています。
縦が拡散モデルの予測部分で、完全なノイズ $x^{\tau}$ から拡散世界モデル $D_{\theta}$ でノイズを除去し、状態 $x^0$ を生成します。
（生成する際に条件 Conditioning として、過去の履歴を使用）

拡散世界モデル $D_{\theta}$ は拡散モデルと同じ方法で学習され、損失関数は以下です。

拡散過程のステップが $\tau$ となり、次の状態の画像が $x^{\tau}_{t+1}$ となります。

内容としては以上で以降は細かいポイントです。

【強化学習】拡散モデルで世界モデルを作ったDIAMONDを解説・実装 #Python – Qiita

いいね:

関連

クリスのコーナー: タイプ – CodePen

Chris のコーナー: ツーライナー – CodePen

クリスのコーナー: タイプ – CodePen

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

兄弟で風船割り

ヒカヒカキンキンついに斎斎デデデデデ！！！【ヒカキン勝手に編集】

「俳優の別人格プロモ！SNSで拡大する新戦略」

【強化学習】拡散モデルで世界モデルを作ったDIAMONDを解説・実装 #Python – Qiita

報酬と終了モデル

ActorCritic

学習サイクル

Worker

学習の所感

学習結果

共有:

いいね:

関連

クリスのコーナー: タイプ – CodePen

Chris のコーナー: ツーライナー – CodePen

クリスのコーナー: タイプ – CodePen

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル