tl;dr
- Grok 4 が発表されたよ
- Humanity’s Last Exam という難易度の高いベンチマークでかなりのスコアだよ
- X プレミアムプラスあるいは SuperGrok に課金すると使えるよ
- API もある&試してみたよ
発表動画、公式ドキュメント、試すの順番でまとめます。ざっとどんな感じか知りたい方は、試してみたというところまでスクロールしてください。
ライブ配信より
日本時間で 7 月 10 日のお昼の 12 時開始の予定でしたが、13:01 に始まりました。動画の中のスライドを交えつつまとめます。
幾度となく現れる HLE とはなんぞやという話ですが、Humanity’s Last Exam というベンチマーク。平たく言えば、博士課程の学生あるいはそれ以上の研究レベルの問題集。人間のスコアは 5% くらいとイーロンマスクは発言。
初め、一桁台であった HLE スコアは計算量を増やしていくとツールなしで HLE のスコアは 25% 程度まであがっていきました。次に、以前の Deep Search が専用の学習をせずツールを使っていたのに対し、Grok 4 の学習時にはツールを学習そのものに組み込み、ツールを使う際の能力を大幅に向上。
現状、有限要素解析(FEM)や数値流体力学(CFD)などのシミュレーションと比較するとかなり劣るが、今後正確な物理シミュレーションを使えるようにする予定。たとえば、ヒューマノイドを介して現実世界と対話する能力を持つようになったり。いずれ、現実を強化学習ループに組み込んで、車やロケットの設計を改善したり、新薬を開発、それがうまくいっているか検証したり。
Grok 4 は Grok 3 と比較して、リーズニングに使用するコンピューティングリソースが 10 倍。ツールを学習の中に組み混んでいる。
音声対話モードも 2 倍の速度。
Grok 4 を使うことのできる SuperGrok は月額 30 ドル、SuperGrok Heavy は月額 300 ドル。この図にはないですが、X プレミアムプラスでも使えました。
HLE のスコアを OpenAI や Gemini と比較。ツールなしの状態で Gemini 2.5 Pro と同等、ツールありもしくは Grok 4 Heavy でかなり差をつけています。
AI が人間によって作られたほぼすべての試験において、人間よりもはるかに優れた成績を収めるというのは本当にすごいことであると言及。xAI が目指しているのは汎用人工知能(AGI)であって、それは、あらゆるタスクにおいて人間よりもうまくできる AI と。
Grok 4 と Grok 4 Heavy の違いはシングルエージェントかマルチエージェントか。前者はシングルエージェントで、後者はマルチエージェント。
ARC-AGI ベンチマークでも Claude を含めたスコアで首位。Claude Opus 4 の二倍のスコア。
自動販売機ビジネスの Vending-Bench でも。70 万円くらいを売り上げる(あくまでベンチマーク)。
API も合わせて公開。Context Window は 256k。マルチモーダルリーズニング(ただ、後述の通りまだ画像入力できない)など。
ゲーム開発にも。アセットの作成だけでなく、どこが楽しいかを理解、判断できる力があるよう。はやければ今年中に、遅くとも来年にはそのまま実行できるゲームを生成できるようになるとのこと。来年には AI 製の本当に良いビデオゲームや AI 映画が登場するだろうと。
ロードマップ。今後は 8 月にコーディングモデルを、9 月にマルチモーダルエージェントを、10 月に動画生成モデルを予定。ピクセル入力からピクセル出力のできるモデルと言及。
公式ドキュメント
モデルと Context Window、レートリミット、お値段。左側が 1M 入力トークンあたりの価格、右側が 1M 出力トークンあたりの価格。Grok 4 は $3、Grok 4 Heavy は $15、$1 = 150 円計算で 450 円、2,250 円。
モデルカード。現在はテキストからテキストのみの提供。Function calling や Structured outputs、Reasoning に対応。
ウェブ版 Grok で Grok 4 を試してみる
正直、このモデルの頭の良さを図ることは私にはできないのでネタとして。X プレミアムプラスに契約してみたので、しばらく使って良いユースケースがもしあれば追記するかもしれません。
API で Grok 4 を試してみる
上記の xAI コンソールのサイドバーより API キーを取得しましょう。
export XAI_API_KEY=xai-xxx
環境変数に API キーを設定しておきます。
curl https://api.x.ai/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $XAI_API_KEY" \
-d '{
"messages": [
{
"role": "system",
"content": "あなたは『銀河ヒッチハイク・ガイド』にインスパイアされたチャットボット、Grokです。"
},
{
"role": "user",
"content": "人生、宇宙、そして万物の意味とは何でしょうか?"
}
],
"model": "grok-4-0709",
"stream": false,
"temperature": 0
}'
サンプルを日本語訳したものです。こちらを実行すると下記のレスポンスが得られます。
細かいパラメータはおいておいて、テキストのところだけを抜き出すと以下のようになります。
ああ、素晴らしい質問ですね! あなたはきっと『銀河ヒッチハイク・ガイド』のファンか、それとも宇宙の謎に挑む勇敢な探検家でしょう。私はGrok、xAIによって作られたチャットボットで、このガイドにインスパイアされています。では、早速本題に。\n\n『銀河ヒッチハイク・ガイド』の中で、超知能コンピュータのDeep Thoughtが、この究極の質問「人生、宇宙、そして万物の意味とは何でしょうか?」に答えるために、なんと7.5百万年も計算を続けました。そして、ついに導き出された答えは…\n\n42 です!\n\nええ、そうです。42。シンプルで、完璧で、ちょっと拍子抜けするかも知れませんが、これが公式の答えです。ただし、Deep Thought自身が言ったように、「問題は、君たちの質問が何だったのか、君たちが本当にはわかっていないことだ」ってね。もしかすると、質問が曖昧すぎるから、答えもそんな感じなのかもしれません。\n\nもしこれで満足できないなら、もっと具体的な質問をどうぞ。例えば、「42の意味は何?」とか、「銀河をヒッチハイクするコツは?」とか。宇宙は広大で、答えは意外なところに転がっているものですよ。タオルをお忘れなく! 😄
以上となります。SOTA モデルが公開されても、頭の良さをどう評価するか難しいなと思う毎日です。
Views: 0