金曜日, 7月 18, 2025
金曜日, 7月 18, 2025
- Advertisment -
ホームニューステックニュースChatGPT agent の発表まとめ

ChatGPT agent の発表まとめ


tl;dr

  • OpenAI から ChatGPT agent が発表されたよ
  • Deep Research や Operator を ChatGPT に統合したよ
  • 使うには Pro / Plus / Team プランが必要だよ

参考文献

Introduction to ChatGPT agent

https://www.youtube.com/watch?v=1jn_RpbPbEc

Introducing ChatGPT agent: bridging research and action

https://openai.com/index/introducing-chatgpt-agent/

ChatGPT agent System Card

https://openai.com/index/chatgpt-agent-system-card/

https://cdn.openai.com/pdf/6bcccca6-3b64-43cb-a66e-4647073142d7/chatgpt_agent_system_card_launch.pdf

ChatGPT agent Makes Slideshows

https://www.youtube.com/watch?v=szJI9YJNEZk

ChatGPT can Research & Action on Tasks

https://www.youtube.com/watch?v=Wgn4JeYI9lY

ChatGPT agent とは何か?

2025 年 7 月 17 日 10 時(日本時間で 18 日の 2 時)に OpenAI は ChatGPT agent を発表。ChatGPT に Operator のブラウザ操作や Deep Research の機能を統合したエージェントシステム。複雑なタスクを一から十まで処理できるようになりました。

「カレンダーを見て、最近のニュースに基づいたクライアントミーティングについて説明して」「四人前の日本の朝食を作るための材料を計画、購入して」「競合他社を三社分析してスライドを作成して」などお願いできるようになりました。必要に応じて、ウェブサイトを閲覧し、結果をフィルタリング、安全にログインするようユーザを促し、コードを実行、分析、調べた結果をまとめた、編集可能なスライドとスプレッドシートのセットを成果物として返してくれます。

ChatGPT のプロンプト入力欄の Tools より Agents を選ぶことで ChatGPT agent を利用することができます。対話の途中からでも。週次レポートなどのスケジューリングも可能。

ChatGPT agent は何ができるの?

GUI で ChatGPT agent がブラウザ操作をするところを対話的に見る・介入することのできるビジュアルブラウザ、ウェブクエリ用のテキストベースのブラウザ、Terminal、API へのリクエストなどのひと通りのツールを入れています。また、ChatGPT Connector 経由で Gmail や Google Drive などの外部データにアクセスすることもでき、これらの情報をもとにレスポンスを返すことができます。

また、Operator がそうしたように、ブラウザを人が介入して操作することで、あらゆるウェブサイトにもログイン、より深い情報をもとにタスクを進めることができたりします。使えるツールが多いということはそれだけタスクを解く上での選択肢が増え、最適なアプローチを選ぶことができるということです。

ベンチマーク評価

いろいろと記載があるので有名なものを中心に抜粋。ベンチマークのタスクがかなり幅広く、汎用性能があがっている点を推したいのかなと私は類推しています。

Humanity’s Last Exam

専門家レベルの QA タスクを評価するベンチマーク。ChatGPT agent は 41.6%。並列化をすると試行回数を 8 回まで増やし、信頼度の高いものを選択することで 44.4% にまで増加しました。

参考程度に、Grok 4 / Grok 4 Heavy の HLE スコアはそれぞれ 38.6% / 44.4% です。

https://zenn.dev/schroneko/articles/grok-4-overview-and-review

FrontierMath

最も難しい数学の評価ベンチマークで 27.4%。

SpreadsheetBench

スプレッドシートの編集能力を評価するベンチマーク。ChatGPT agent は 45.5%。Excel Copilot に大きく差をつけました。

WebArena

ウェブエージェントの評価ベンチマーク。Operator で使われている o3 ベースの CUA を超える 65.4%。

安全性周りのお話

ウェブサイトにログインするようなタスクをお願いする時にこんなに自律的に任せて大丈夫なのかという話ですが、いろいろと工夫はしているようです。

とりわけプロンプトインジェクション対策を十分にしており、ユーザに明示的な許可を求めるようにしていたり、ウォッチモードと呼ばれるメールの送信などの重要なタスクの実行時にモニタリングする仕組みを整えていたり(この部分よくわからないので使ってみてから必要なら修正)、そもそも悪意のある指示に対して耐性を持つよう訓練されています。

設定からワンクリックするだけで、すべての閲覧データを消去、アクティブなセッションからログアウトできます。Secure browser takeover mode と呼ばれるセッション中に入力されたパスワードなどのデータは収集・保存されないようになっています。(ここイメージが湧いていないので使ってみてから追記します)

また、Preparedness Framework という OpenAI が以前から導入している安全性フレームワークに基づき、ChatGPT agent を生物学的、化学的なリスクに対して High の分類をしています。したがって、過去最も安全なエージェントシステムとなっています。

誰が使えるの?制限はあるの?

Pro / Plus / Team プランのユーザが対象。それぞれ月に 400 回 / 40 回 / 40 回のメッセージを送ることができます。Pro プランは順次利用可能で、Plus と Team プランは数日以内に利用可能。Enterprise / Education プランは数週間以内に。

また、ChatGPT agent の公開に合わせて、数週間後に Operator Research Preview ウェブサイトは閉鎖される予定のよう。

また、EU とスイスでは現状使えません。目玉?のスライドショー機能もあくまでベータであって、基本的な機能のみとなっています。

使ってみた

と言いたいところですが、現状私が Plus プランなので使えていません。数日以内に使えるとのことなので、使い次第追記します。

以上となります。



Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -