週末のドライブが趣味の @___nix___ です。
最近、気になっている方は気になっているかと思いますが、Cursor の Tools に表示されている「Browser Automation」とは何だろう?どうやって使うのだろう?という疑問に答える内容になっています。
Cursor の新機能「Browser Automation」を紹介する前に現在の状況も含めてまとめておきましょう。
AIを活用してブラウザを操作することができれば今までの手作業が自動化できると誰もが夢見ているかと思います(E2Eテストもね)。そんな中で生まれたのが ブラウザ操作型のMCP と AIブラウザ です。
ブラウザ操作型 MCP
ブラウザを操作するMCPで有名だったのが以下の Pupperteer と Playwright の2つでしょうか。
そこに突如現れた Chrome DevTools MCP が一気にこれらを凌駕する勢いです。
AIブラウザ
一方で台頭してきているのが AIブラウザ で、主要AIブラウザの比較表は以下の通り。
一度整理しておいた方が良いと思いましたので参考までに。
AIブラウザ名 | 特徴・説明 | 対応プラットフォーム | 提供形態・状況 | 主な強み |
---|---|---|---|---|
Perplexity Comet | 独自AI検索エンジンを統合しタスク自動化。招待制から一般公開へ。 | Windows/macOS/Linux/モバイル | 招待制から一般公開へ | 高精度な要約と引用、業務・学術調査に最適 |
Claude for Chrome(Anthropic) | Chrome拡張でタスク自動化。会話・カレンダー管理など。現在一部ユーザー限定。 | デスクトップChromeのみ | 一部ユーザー限定試験運用中 | ブラウザ情報理解と幅広いアクション実行 |
Genspark AI Browser | 700以上ツール連携、自動広告ブロック、オートパイロットモード搭載。 | macOS | 一般提供中 | 包括的な情報収集と整理 |
Fellou(フェロー) | Deep Actionで複雑タスク自動化。複数プラットフォーム対応。 | macOS(Windows版開発中) | 早期アクセス版 | 高度なマルチステップ操作自動化 |
OpenAI Operator | GPT-4oベースの高度タスク理解と実行。 | 一部プロユーザー向け | 一部プロ向け、公式サイトはOpenAI内で紹介 | 高度なタスク遂行能力 |
Gemini in Chrome(Google) | Chromeに深く統合されたAIアシスタント。複数タブの情報要約、Googleサービス連携。 | Windows、Macデスクトップ | 米国英語設定ユーザー向け順次展開中 | 複数タブまたぐ情報統合とタスク支援、Google連携 |
さて、やっと本題です。
使い方
-
最新版の Cursor をお使いください。
-
Cursor Settings に以下の表示があり、緑ランプになっていればOKです。
-
次に重要なのがこのBrowserボタンの有効化です。
-
では一例として「dockerhub にログインしてください。ログイン前後のスクリーンショットを保存しておいてください。」というプロンプトを投げてみましょう。(実はこのプロンプトの前に dockerhub の認証情報は既に提供済み)
-
以下のようにAIが指示通りにタスクを進めてくれます。
-
取得したスクリーンショットは以下の通り。
ログイン前(無駄に長くてすみません)
ログイン後
Cursor の新機能「Browser Automation」によって何が幸せになったかと言えば、MCP(mcp.json)の設定をしなくても利用できるという点でしょうか。
Chrome DevTools MCP ベースとも言われているので 現状は Playwrights MCP ベースに見えますが性能や機能も悪く無いと思いますし、Comet よりも使い易い気がしてます。
恐らく Cursor や VSCode を母艦としてあらゆる MCP を駆使しているような環境の場合はこの機能一択かもしれませんね。
政治が賑わい過ぎて技術に集中できません。
もし良ければ X(@___nix___) でのフォローをお願い致します。
Views: 0