火曜日, 9月 30, 2025
火曜日, 9月 30, 2025
- Advertisment -
ホームニューステックニュースClaude Sonnet 4.5 発表関連情報まとめ

Claude Sonnet 4.5 発表関連情報まとめ


tl;dr

  • Claude Sonnet 4.5 が発表されたよ
  • コーディング性能はあらゆるモデルの中で一番高いよ
  • ミスアライメントがすべてのモデルの中で最も低いよ
  • Opus 4.1 と比べても全体的に性能が向上しているよ
  • Claude Code が v 2.0.0 にアプデされたよ
  • Claude Code にチェックポイント機能がついたよ(ESC x2 か /rewind
  • Claude Code SDK が Claude Agent SDK にリネームされたよ
  • Claude for Chrome がウェイトリスト登録者全員に解放されたよ
  • Claude API にコンテキスト管理のふたつの機能が追加されたよ
  • Claude Sonnet 4.5 に既に対応済みのサービスをまとめたよ

Claude Sonnet 4.5 の発表にともなって公開されたリソースが盛りだくさんで、迷子になりかけたのでまとめます。各リソースに対してそれぞれ解説をしていきます。

Claude Sonnet 4.5 について

https://www.anthropic.com/news/claude-sonnet-4-5

Anthropic の Claude Sonnet 4.5 が公開。世界中で最高性能のコーディングモデル。複雑なエージェントの構築やコンピュータ操作、リーズニング、数学タスクにおいて前のモデルから大幅に性能向上。30 時間を超える複雑な複数のステップにわたるタスクを実行可能。入力 $3 / 1M token、出力 $15 / 1M token とお値段は据え置き。

Claude Sonnet 4.5 の性能

ソフトウェアエンジニアリングタスクのベンチマーク SWE-bench Verified において 77.2% と最高性能。実際の開発では、複雑で複数のステップにわたるタスクにおいて、30 時間以上かけてタスクを実行できることを確認。実世界のコンピュータ操作の能力を測るベンチマーク OSWorld においても 61.4% と最高性能。

下記のデモ動画では、Claude がブラウザを直接操作し、ウェブサイトを操作したりスプレッドシートへ入力したりする様子を確認できる。

https://www.youtube.com/watch?v=oXfVkbb7MCg

他にも多くのベンチマークで性能向上を確認。

金融、法律、医療、科学技術分野の専門家による評価では Sonnet 4.5 は Opus 4.1 を含むモデルと比較して、専門分野に関する知識とリーズニング能力が格段に向上したとのこと。

アーリーアクセスのあった Cursor や GitHub、NETFLIX 他の企業においても高評価。

ミスアライメントを軽減したモデル

Claude Sonnet 4.5 は性能の高さだけではなく、ミスアライメントを最小にまで減らすことのできたモデル。安全性の訓練により、過度にユーザの指示に従ったり、虚偽の回答をするなどの行動パターンを低減。プロンプトインジェクションに対する防御性能を大幅に向上。

また、Claude Sonnet 4.5 は AI セーフティレベル 3(ASL-3)のもと公開。化学兵器・生物兵器・放射性物質・核兵器(CBRN)に関する入出力を検出するための「分類器」と呼ばれるフィルタを含む。

時折、分類器の誤検知が想定されるため、会話が中断された場合 Claude Sonnet 4 に切り替える機能を実装。誤検知は継続的に減少しており、さらに減らせるよう取り組んでいる。

Claude Agent SDK

半年以上に渡って Claude Code を継続的に改善。メモリ管理や権限システム、サブエージェントについて取り組んできた。コーディングに限らず、様々なタスクにおいて役に立つツールとして、Claude Code SDK を Claude Agent SDK とリネームしてリブランディング。

Bonus research preview

リサーチプレビュー版の「Imagine with Claude」を公開。Claude がリアルタイムでソフトウェアを作成。対話に応じてその場で Claude が作成していく様子を眺められる。Max プランの契約が必須で、遊べるのは 5 日間だけ。

https://claude.ai/imagine/

補足

あらゆる用途において Claude Sonnet 4 の完全上位互換であり、Claude Sonnet 4.5 へのアップグレードを推奨。

Claude Agent SDK を使ってエージェントを構築

https://www.anthropic.com/engineering/building-agents-with-the-claude-agent-sdk

Claude Code の公開当初は Anthropic 社内の開発者の生産性向上が目的であった。ここ数ヶ月で単なるコーディングツールの枠を超え、Deep Research や動画制作、メモといったコーディング以外の用途にも利用が進む。汎用的に使えるということを名前に反映させるため、Claude Code SDK を Claude Agent SDK にリネーム。

Claude にコンピュータ操作の機能を与えることで、CSV ファイルの読み取りやウェブ検索、データの可視化など、さまざまな作業をこなす汎用エージェントに。Claude Agent SDK で作成できるエージェントの例として、財務管理エージェント、パーソナルアシスタントエージェント、カスタマーサポートエージェント、ディープリサーチエージェントなどが挙げられている。

エージェントは「コンテキスト収集→アクション実行→検証→繰り返し」のエージェントループで動作。コンテキスト収集にはエージェンティック検索、セマンティック検索、サブエージェント、コンパクション機能を、アクション実行には、ツール、bash、コード生成、MCP を、検証にはルール定義、ビジュアルフィードバック、LLM による評価を用いる。

エージェントループを繰り返した後に、各タスクが適切な状態かどうかをテスト。出力結果、特に失敗事例を分析。特に必要なツールが与えられているかを確認。機能追加などにより、評価にブレが生じる場合は実際のお客さんの利用パターンに基いたテストセットを用意。

Claude Agent SDK へのマイグレーション

https://docs.claude.com/en/docs/claude-code/sdk/migration-guide

Claude Code SDK が Claude Agent SDK にリネームされたことによるマイグレーションガイド。

一度アンインストールしてから Claude Agent SDK をインストール。

npm uninstall @anthropic-ai/claude-code
npm install @anthropic-ai/claude-agent-sdk
pip uninstall claude-code-sdk
pip install claude-agent-sdk

ドキュメントのコードのすべてを貼り付けると長くなるのでしませんが、TypeScript にせよ、Python にせよ、インポート箇所の置き換えが必要。また、SDK 経由で CLAUDE.md や settings.json、スラッシュコマンドなどを読み込まないように。したがって、使いたい時には下記のように指定する必要がある。

const result = query({
  prompt: "Hello",
  options: {
    settingSources: ["user", "project", "local"]
  }
});

Claude Code をより自律的に

https://www.anthropic.com/news/enabling-claude-code-to-work-more-autonomously

Claude Code にいくつかのアップグレードが加えられ、VS Code 拡張機能、ターミナルインターフェース 2.0、チェックポイント機能が追加。デフォルトモデルに Claude Sonnet 4.5 を採用。

ネイティブの VS Code 拡張機能により、IDE にてサイドバーから直接 Claude Code を使うことができ、Claude の編集をリアルタイムで確認できる。

https://www.youtube.com/watch?v=IpFG_K-1xog

ターミナルインターフェースにおいて、ステータス表示を改善、プロンプトの履歴機能を Ctrl+r で検索可能に。プロンプトの再利用や編集が簡単に。

チェックポイント機能が追加。変更前のタイミングでコードを自動保存、Esc キーを 2 回、あるいは /rewind コマンドで前のバージョン戻すことができる。復元の際には、コード、会話、またはその両方を選ぶことができる。

ただし、Claude による編集時にのみ適用されるため、ユーザによる編集や bash コマンドの実行時には適用されない点に注意。バージョン管理システムとの併用を推奨。

Claude Developer Platform におけるコンテキスト管理

https://www.anthropic.com/news/context-management

Claude API にて、コンテキスト管理を行なうための「コンテキスト編集機能」と「メモリツール」のふたつの機能を追加。開発者はコンテキストの上限に悩むことなく、長時間にわたるタスクを処理するエージェントを構築することができる。

実業務ではコンテキストウインドウのような制約は存在しない

コンテキスト編集機能は、トークンの上限に近付くとコンテキストウインドウにあるツール呼び出し結果のうち、古いものを自動的に削除するもの。

メモリツールは、コンテキストウィンドウの外にある情報を保存、参照することができるもの。専用のメモリディレクトリにおいて、ファイルの作成や読み込み、更新、削除が可能。

Claude がコンテキスト編集機能やメモリツールを使ってカタンをプレイする様子。ナレッジベースを構築、ゲームを横断してメモリを保持、古くなった情報を削除する。

https://www.youtube.com/watch?v=BER3EhUIyz0

メモリツールはクライアント側で動作。ストレージはバックエンドで管理、データの保存先や永続化は制御可能。メモリは後続のエージェントのセッションで使うこともできる。

長時間稼働するエージェントの活用事例として挙げられているものは、コーディング作業、研究、データ処理。

コンテキスト編集機能とメモリツールの組み合わせで、ベースラインと比べて複雑な複数のステップのタスクの性能が 39% 向上。コンテキスト編集機能単体でも 29% の性能向上。通常であればコンテキストが溢れて失敗していたタスクもコンテキスト編集機能単で完遂可能に、トークン消費量も 84% 削減。

Claude Sonnet 4.5 のメモリ&コンテキスト管理

https://github.com/anthropics/claude-cookbooks/blob/main/tool_use/memory_cookbook.ipynb

Claude Sonnet 4.5 のメモリツールとコンテキスト管理機能についての Jupyter Notebook によるクックブック。

メモリツール(ノートブック内の memory_20250818)を呼び出し、学んだパターンをファイルベースで記録、クライアント側の実装により制御。

コンテキスト編集機能(clear_tool_uses_20250919)により、ツール結果のうち古いものを自動削除、メモリを保持したまま会話を管理。"edits": [{"type": "clear_tool_uses_20250919",... のように与える。メモリは /memories ディレクトリに格納。

Claude for Chrome 拡張機能

Claude がブラウザ操作をしてくれる Google Chrome の拡張機能。Claude Max プランが必須。$100 か $200 は問わない。以前より、ウェイトリスト登録をされていた方は使えるようになっているはず。もしウェイトリスト登録がまだの方は下記の案内とウェイトリスト登録ページを参照。

https://www.anthropic.com/news/claude-for-chrome

https://claude.ai/chrome

Claude for Chrome のセットアップや使い勝手について以前まとめているので、ご興味のある方がいらしたらご覧ください。

https://note.com/schroneko/n/n8b1ad13a2d4b

Claude Code for VS Code (VS Code 拡張機能)

バージョン 2.0.0 にアップデート。ネイティブ統合。

https://marketplace.visualstudio.com/items?itemName=anthropic.claude-code

Claude の利用状況が設定から見られるように

https://x.com/claudeai/status/1972732965219438674

Claude のアプリと Claude Code の利用状況をリアルタイムで確認できるように。下記ページより。

https://claude.ai/settings/usage

こんな感じ。カレントセッションとウィークリーリミットを見ることができる。Opus 単体も。

Claude Code にも /usage コマンドが追加されたのでそちらはこんな感じ。

Claude Code 2.0.0 のアップデート内容

https://github.com/anthropics/claude-code/commit/f73eee0ead76eec52b7d2852ff643fa98a49f75f

Claude Code のバージョンが 1.0.126 から 2.0.0 に。変更内容は下記の通り。

  • VS Code のネイティブ拡張機能
  • アプリケーションの全面的な機能改善
  • 会話を遡って変更を取り消し /rewind コマンドを追加
  • 利用状況を確認する /usage コマンドを追加
  • 思考モードの切り替えをタブキーで(セッション内で保持)
  • Ctrl-R で履歴を検索
  • 未実装だった Claude コンフィグコマンドを追加?よくわからんけど config は増えていることを確認
  • フック機能の改善('tool_use' ids without 'tool_result' blocks エラー)
  • Claude Code SDK の Claude Agent SDK への名称変更
  • --agents フラグを用いてサブエージェントを動的に追加

各社の Claude Sonnet 4.5 対応状況

Cursor、Windsurf、OpenRouter、Cline、Vercel、Vertex AI、Devin、Genspark、Databricks、GitHub Copilot、Perplexity AI にて利用可能。

https://x.com/cursor_ai/status/1972713190074261949

https://x.com/windsurf/status/1972712147450048600

https://x.com/OpenRouterAI/status/1972711658423304532

https://x.com/vercel/status/1972732520673485241

https://x.com/cline/status/1972708023232852309

https://cloud.google.com/blog/products/ai-machine-learning/announcing-claude-sonnet-4-5-on-vertex-ai/

https://cognition.ai/blog/devin-agent-preview-sonnet-4-5

https://x.com/genspark_ai/status/1972715497771659470

https://x.com/databricks/status/1972732915608965307

https://github.blog/changelog/2025-09-29-anthropic-claude-sonnet-4-5-is-in-public-preview-for-github-copilot

https://x.com/perplexity_ai/status/1972751588629545329


以上となります!お読みいただきありがとうございます。

モデルだけでなく、ツールやプロダクト、ボーナスプレビューまで盛りだくさん!10 月 6 日の OpenAI DevDay になんとしても間に合わせたかったという気概が伝わってきます…!私ごとですが、そんな来たる OpenAI DevDay に運よく現地参加することがかないまして、半月ほどサンフランシスコの AI スタートアップに訪問予定です。もし気になる方がいらしたら、X のサブスクにて情報を公開すると思うので、入ってくださると泣いて喜びます!

https://x.com/schroneko/status/1971425311557550325

ちなみに、今週は Gemini 関連の発表もあるようですので、とても寝る時間がありませんね()

おまけ

https://x.com/aaron_begg/status/1803811937584591083

https://www.instagram.com/reel/C8cUns1uQ4H/

マスコットキャラクターの名前は「Claw’d」。Claude Artifacts で SVG で作成されたキャラクターです。おそらく読みは同じ「クロード」かな?





Source link

Views: 1

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -