ホームニューステックニュース時系列データとニューラルネットワークを用いたプラントモデリングとSim2Real強化学習による制御器設計 #AI - Qiita

時系列データとニューラルネットワークを用いたプラントモデリングとSim2Real強化学習による制御器設計 #AI – Qiita

By インモビ運営局

2025年6月26日

0

2

時系列データとニューラルネットワークを用いたプラントモデリングとSim2Real強化学習による制御器設計 #AI - Qiita

　以下は，本手法におけるSim2Real強化学習の成果として，時系列データのみを用いて構築した制御器が回転型倒立振子を倒立制御する様子を示した動画です．

https://www.youtube.com/watch?v=C85eXe0MAZo

Sim2Real強化学習による回転型倒立振子の倒立制御(DNNモデルver) (https://www.youtube.com/watch?v=C85eXe0MAZo)

　制御工学を学び，様々な制御器（コントローラ）を設計している皆さん，Sim2Real強化学習やモデルベーストコントロール(MBC)などが登場している現代において，複雑な制御対象の数理モデル（物理モデル）を構築することが難しい場合や，そもそも構築自体が面倒くさいと考えたことはありませんか？

　そのため今回は，ディープニューラルネットワーク（DNN）を用いて，制御対象（回転型倒立振子）の時系列データからの数理モデルを構築してみようと思います．
また，図1のようにシミュレーション環境内の制御対象の数理モデルとして，DNNモデルを用いたSim2Real強化学習による制御器設計を行ってみようと思います．

　　　　　　　図1 シミュレーション環境を利用した強化学習での制御器設計法

実験環境
・Windows 11 home
・Matlab/Simulink 2022a (1. Deep learning toolbox 2. Reinforcement learning toolbox)
・Qunaser Qube-Servo2

コード
Github (準備中)

　今回使用する回転型倒立振子はQuanser社が販売しているQube-Servo2です．回転型倒立振子はモータ軸に取り付けられた回転アームを水平方向に回転させることにより，回転アームの先端に取り付けられた振子が運動します．
　図2は回転型倒立振子のシステム構成図です．PC（Matlab/Simulink）から電圧値を指令するとDAQを通してPWM信号が生成され，DCモータへ電圧 $V$ が印加されます．回転アームの基部（エンコーダ付きDCモータ）と振子の基部に取り付けられた2つのエンコーダにより，回転アームの角度 $\theta$ radと振子の角度 $\alpha$ radを検出し，DAQを通してPC上へ情報が送られます．
　なお，サンプリングタイムを10msと設定していますが，Qube-Servo2では最大で2msに設定可能です．エンコーダの分解能は2,048PPPとなっています．

　　　　　　　　　　　　　　図2　回転型倒立振子システム

　本章では，回転型倒立振子に対する制御対象のモデリング手法として，DNNを用いたアプローチを紹介します．
　まず初めに，従来広く用いられてきた物理モデルと，近年注目を集めているDNNモデルの考え方の違いについて整理します(2.1節)．その後，DNNによるモデリングの具体的な手順(2.2節)や，構築したモデルの予測性能に関する検証結果(2.3節)を通じて，両者の適用性や精度に関する比較を行います．