ブラウザ操作系のAIエージェントが複数出てきたので、実装方法と動作の振る舞いを比較してみました。
computer-useについて
※紹介するのはAzureから提供されているcomputer-useモデルです。
2025年3月に登場した新しい生成AIモデルで、視覚要素を解釈し、画面上のコンテンツに基づいてアクションを実行するAIエージェントです。
https://learn.microsoft.com/en-us/azure/ai-foundry/openai/how-to/computer-use?tabs=python
このモデル単体で動くわけではなくて、Response API…
Source link
Views: 0