Microsoft Research が発表したオープンソース研究プロトタイプ Magentic-UI は、Web ブラウジング、Python およびシェルコードの作成と実行、ファイルの理解といったタスクを実行できる Web アプリケーションです。完全な自律性を目指す他のコンピューター使用エージェントとは異なり、Magentic-UI は、単純な Web 検索以上のアクティビティを必要とするアクション指向のタスクに対して、透明性が高く人間が制御可能な検索体験を提供しています。
左側にチャット、右側にブラウザを配置した UI
-
ユーザーとの共同計画(Co-Planning)
Magentic-UI がアクションを実行する前に、ユーザーがプラン エディターを使用して直接プランを変更したり、テキスト フィードバックを提供したりすることができます -
ユーザーとの共同実行(Co-Tasking)
ユーザーはシステムを一時停止し、自然言語でフィードバックを提供したり、ブラウザを直接操作してデモンストレーションを行ったりすることができます -
ヒューマンインザループ(Action Guards)による安全性
潜在的に取り返しのつかないアクションを実行する前にユーザーの承認を求めます。ユーザーは、Magentic-UIによる承認の頻度を指定できます。さらに、Magentic-UIはブラウザやコードエグゼキューターなどのツールを安全に操作できるようサンドボックス化されています。 -
経験からの学習(Plan Learning)
過去のインタラクションから計画を学習して保存し、将来のタスクの完了率を向上させることができます。
Planner がクエリーをサブタスクに分解します。「+Add Step」によってユーザーがサブタスクを追加することもできます。プランを承認したい場合、「Accept Plan」を押下する必要があります。
参考:タスク解決思考のマルチエージェントソリューションアクセラレーター
以前、Microsoft 謹製のマルチエージェントソリューションアクセラレーターを紹介しましたが、こちらも複雑なタスクを解決するために、AutoGen のプランナーがサブタスクに分解します。プランへの手動介入という点で Magentic-UI が一歩進化しているといえます。
画面右側の noVNC のコントロールをユーザーが取ることが可能。コントロールを取得したらそのまま Docker 内で起動する Playwright ブラウザを操作することができます。
Magentic-UI は、タブを閉じる、副作用のあるボタンをクリックするなど、取り消し不可能と判断されるアクションを実行する前にユーザーの許可を求めます。これを「アクションガード」と呼びます。
ユーザーは、Magentic-UIのアクションガードを設定することで、あらゆるアクションを実行する前に常に許可を求めるように設定することもできます。ユーザーがリスクのあるアクション(例:アイテムの支払い)と判断した場合は、そのアクションを拒否できます。
Magentic-UI がタスクを完了すると、ユーザーは Magentic-UI にタスクの実行に基づいてプランを学習させるオプションを選択できます。これらのプランはプランギャラリーに保存され、ユーザーと Magentic-UI が将来アクセス可能です。
ユーザーは、保存されたプランを表示する「Saved Plans」ボタンをクリックすることで、プランギャラリーからプランを選択できます。または、ユーザーが以前のタスクと類似したタスクを入力する際、ユーザーが入力を完了する前に保存されたプランが表示されます。
同一のタスクが見つからない場合、Magentic-UI は AutoGen の Task-Centric Memory を使用して、類似したタスクのプランを取得できます。Microsoft の予備評価では、この取得は極めて正確であり、保存されたプランを呼び出す速度は新しいプランを生成する速度の約3倍速いことが確認されています。
Magentic-UI のブラウザアプリ上から Docker 内で起動する Playwright へ接続するためにオープンソースの noVNC が組み込まれている。コード実行なども Docker 内にサンドボックス化されている。
処理詳細
基本実装はすでに紹介した Magentic-One であり、プランへの手動介入や承認操作などが追加で実装されています。
Magentic-One の優れたメタ認知機能についての解説
python3 -m venv .venv
source .venv/bin/activate
pip install magentic-ui
Azure OpenAI Config
[Settings]->[Model Configuration] に以下を貼り付け。
model_config: &client
provider: AzureOpenAIChatCompletionClient
config:
model: "gpt-4.1-2025-04-14"
azure_endpoint: "https://.openai.azure.com/"
azure_deployment: "gpt-4.1"
api_version: "2025-03-01-preview"
api_key: ""
max_retries: 10
orchestrator_client: *client
coder_client: *client
web_surfer_client: *client
file_surfer_client: *client
action_guard_client: *client
私もすでに過去の記事で言及しましたが、Magentic-One の挙動を評価した Microsoft Research のチームは論文の中で以下のようなエラー分析を行いました。
6.1.1. 持続的な非効率的行動
エージェントが同じ失敗を繰り返し、適応できない問題
例:MultimodalWebSurfer が誤った検索クエリを何度も試みる、あるいは不要なデータを何度も取得するケース
6.1.2. 検証不足によるミス
収集した情報やコードの実行結果を十分に検証しないことで誤った結論を出してしまう
例:ファイルの内容を正しく読み取らないまま次のステップに進んでしまう
6.1.3. ナビゲーションの非効率性
Web ページやファイルを適切にナビゲートできず、目的の情報に到達できない問題
例:MultimodalWebSurfer が適切なリンクを見つけられない、またはページ内検索に失敗するケース
このようなエラーやセキュリティ上の懸念に対しての改善点として Human-in-the-Loop を強化し、今回「Magentic-UI」の公開に繋がったと考えられます。そして以下のような安全機能を実装しました。
- 許可リスト: ユーザーは、Magentic-UI がアクセスを許可するウェブサイトのリストを設定できます。
- いつでも中断可能: どの時点でもユーザーは Magentic-UI を中断して、保留中のコード実行や Web 閲覧を停止できます。
- Docker サンドボックス:Magentic-UI は、Docker コンテナ内で起動されたブラウザを認証情報なしで制御することで、ログインアカウントや認証情報によるリスクを回避します。さらに、コード実行も別の Docker コンテナ内で実行されるため、Magentic-UI が実行されるホスト環境への影響は回避されます。
- 取り消し不可能なエージェントアクションの検出と承認:ユーザーはアクションガードを設定することで、Magentic-UI がユーザーの承認なしに実行できるアクションを決定できます。ユーザーは各アクションに対して「承認」または「拒否」ボタンをクリックする必要があります。
外界に影響を与える系は徹底的にガードレールを実装した方がいいでしょう。
今後使用している検索エンジンや多くの Web サイトがナビゲーション自動化に対する人間確認を実装する時代が来る気がする。。。
※当記事の執筆は研究目的であり、人間同席の上、実装・動作させています。
Views: 0