日本時間5月23日(金)の深夜、Code with Claudeなるイベントが開催されていました。
その中でClaude Opus 4とClaude Sonnet 4が発表され、SNSなどでも話題になっています。
ベンチマークは以下の感じ、かなり優れたコーディングモデルとなっているようです。
Code with Claudeの発表まとめは以下記事がわかりやすいです。山盛りすぎるのでここでは省略します。
以下プレスリリースが出ていました。
5/23 7:00現在、Claude Opus 4はオハイオ・バージニア北部・オレゴンリージョンでのみ使用可能です。
Claude Sonnet 4は上記に加えて、アジアパシフィック(と一部欧州)で使用可能です。
東京・大阪でも利用可能となっています👏
アジアパシフィックのクロスリージョン推論は、日本以外のリージョン(シドニー、ソウル、シンガポールなど)にもリクエストが振り分けられます。
国内のみでのクロスリージョン推論は不可能なのでご注意ください。
また、プロンプトキャッシュは北米のリージョンでのみ使えそうです。
バージニア北部リージョンのClaude Opus/Sonnet 4に対して、よくあるプロンプトをいくつか投げてみます。
また前バージョンとの比較のため、3.7 Sonnetにも参加してもらいます。
小数点が付いた数字の比較
3.7 Sonnetは不正解、4シリーズはともに正解ですね。
Sonnet 4は最初間違えていたのに、自分で間違いに気づいて訂正した結果正解していましたね…自力でCoTしてくれている感じがします。
Opus 4は一発正解です。ただSonnet 4に比べると時間は10倍くらいかかってます。
文章生成
Claudeモデルはこれまででも十分解像度高い文章を作ってくれていましたが、4シリーズは更に解像度が高くなっているように感じます。
〇〇型や典型例、実態までかなりに具体的に書いてくれています。それでいて、注意点についても冷静に述べてくれているようです。
この調子でいくと、他の文章生成でも役に立ってくれそうで期待が持てますね!
(とはいえ、ここが優れすぎているとまた生成AIに出力させただけのブログがさらに増えそうですが…難しいところです)
また、プロンプトキャッシュも有効化してみたんですが、処理時間自体がそんなに早くなる訳ではなさそうでした(1回しかやってないのでご参考まで)。
自分が何なのか聞いてみる
Sonnet 4は3.5がベースになっている?ようです。
(SNSのやり取りを拝見すると、カットオフ時期的にv1のようです。)
3.7 SonnetとOpus 4は自分のバージョンがわからないとのことなので、もしかすると3.7を元にしたのがOpus 4なのかもしれません。
Bedrockの他機能でも使えるのか確認してみました。
- エージェント:3.7 Sonnet以降使用不可能
- ナレッジベース:
- バッチ推論:3.7 Sonnet以降使用不可能
- モデル評価・RAG評価:3.7 Sonnetまで使用可能(4シリーズは不可能)
ナレッジベースの謎エラーについては別途調査してみます。
希望的観測ですが、3.7 Sonnetに対応してくれているものはそのうち4シリーズ(少なくともSonnet 4)に対応してくれるのではないでしょうか。
逆に言うと、これから一番大事そうなエージェントのところで3.7すら使えないのが痛すぎるという話はあります;;
CursorでSonnet 4を選択し、Amazon風のサイトを作ってみてと依頼してみました。
結構そっくりに作ってくれました。
実務でどこまで使えるかはまた別の検証が必要そうですが、Vibe Codingの良いお供になってくれそうな予感がします。
Opus 4はOpus 3から据え置き、Sonnet 4は3.7 Sonnetから据え置きです。
(Bedrockの料金サイトは更新されていませんでした)
コーディングつよつよということで、これ使って色々開発してみます!
Views: 2