ホームニュースAIニュースOpenaiのO3AIモデルは、会社が最初に暗示したよりもベンチマークで低いスコアを低くします

OpenaiのO3AIモデルは、会社が最初に暗示したよりもベンチマークで低いスコアを低くします

2025年4月21日

5

OpenaiのO3AIモデルは、会社が最初に暗示したよりもベンチマークで低いスコアを低くします

OpenaiのO3 AIモデルの1党とサードパーティのベンチマーク結果の矛盾は会社の透明性について質問を提起しますモデルテストの実践。

Openai時 12月にO3を発表しました同社は、モデルがFrontiermathに関する4分の1以上の質問に答えることができると主張しました。そのスコアは競争を吹き飛ばしました – 次のベストモデルは、Frontiermathの問題の約2％しか正しく答えませんでした。

「今日、そこにあるすべての製品は2％未満です [on FrontierMath]、」Openaiの最高研究責任者であるMark Chen、ライブストリーム中に言った。「私たちは見ています [internally]積極的なテスト時間計算設定にO3を使用すると、25％を超えることができます。」

結局のところ、その数字はおそらく上限であり、先週公開されたモデルOpenaiよりも多くのコンピューティングがあるO3のバージョンによって達成されました。

Frontiermathの背後にある研究所であるEpoch AIは、金曜日にO3の独立したベンチマークテストの結果を発表しました。エポックは、O3がOpenaiの最高の請求スコアを大きく下回って約10％を獲得したことを発見しました。

Openaiは、O3-Miniを引き継ぐより小さく安価なモデルであるO4-Miniとともに、非常に期待されている推論モデルであるO3をリリースしました。

一連の数学と科学のベンチマークの新しいモデルを評価しました。スレッドの結果！ pic.twitter.com/5gbtzkey1b

– エポックai（@epochairesearch） 2025年4月18日

それは、それ自体が嘘をついたという意味ではありません。 12月に公開された会社が発行したベンチマークの結果は、観察されたスコアエポックに一致する下限スコアを示しています。エポックはまた、そのテストのセットアップはOpenaiのセットアップとは異なる可能性が高く、その評価のためにFrontiermathの更新リリースを使用したと述べました。

「私たちの結果とOpenaiの違いは、より強力な内部足場でOpenaiが評価され、より多くのテスト時間を使用することによる可能性があります [computing]または、これらの結果がFrontiermathの異なるサブセットで実行されたため（Frontiermath-2024-11-26の180の問題とFrontiermath-2025-02-28-Privateの290の問題）、」書いたエポック。

Xの投稿によると O3のプレリリースバージョンをテストした組織であるARC賞財団から、パブリックO3モデルは「別のモデルです」 […] チャット/製品の使用に合わせて調整します」と、エポックのレポートを裏付けています。

「すべてのリリースされたO3コンピューティア層は、私たちがバージョンよりも小さいです [benchmarked]、ARC賞を書きました。一般的に言えば、より大きなコンピューティング層がより良いベンチマークスコアを達成することが期待できます。

確かに、O3の公開リリースがOpenaiのテストの約束に達していないという事実は、FrontiermathのO3-Mini-HighおよびO4-MiniモデルがO3を上回るため、OpenAIが今後数週間でより強力なO3バリアント、O3-Proをデビューする予定です。

ただし、特にソースが販売するサービスを持っている会社である場合、AIベンチマークは額面どおりに採取されないことを最適にすることを思い出させてください。

ベンダーが新しいモデルで見出しとマインドシェアをキャプチャするためにベンダーが競争するにつれて、ベンチマークの「論争」はAI業界で一般的な出来事になりつつあります。

1月、エポックはそうでした批判された会社がO3を発表した後まで、Openaiからの資金を開示するのを待っていました。 Frontiermathに貢献した多くの学者は、公開されるまでOpenaiの関与について知らされていませんでした。

最近では、Elon MuskのXaiはそうでした被告最新のAIモデルであるGrok 3の誤解を招くベンチマークチャートを公開すること会社が開発者が利用できるようにしたモデルとは異なるモデル。

Source link

返事を書く返事をキャンセル

あなたのコメントを入力してください。

ここにあなたの名前を入力してください

間違ったメールアドレスを入力しました。

ここにあなたのEメールアドレスを入力してください

OpenaiのO3AIモデルは、会社が最初に暗示したよりもベンチマークで低いスコアを低くします

いいね:

関連

伝えられるところによると、リビアンは関税のないバッテリーの備蓄に座っています

Appleは世界中のスパイウェア攻撃の新しい犠牲者に通知します

gruve.aiは、AI Techコンサルティングのためのソフトウェアのようなマージンを約束し、数十年前の産業を混乱させます

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

『数字だけ追ってその先に何があるんですか？』 that’s what makes it fun#hikakin#hikakinedit #edit #ヒカキン #edit #hikakin

コメント数が多すぎてヒカキンに圧勝してしまうマスオ

【ヒカキン】雪・川 ダイブ集 (2012~2025)【元日】#shorts

OpenaiのO3AIモデルは、会社が最初に暗示したよりもベンチマークで低いスコアを低くします

共有:

いいね:

関連

伝えられるところによると、リビアンは関税のないバッテリーの備蓄に座っています

Appleは世界中のスパイウェア攻撃の新しい犠牲者に通知します

gruve.aiは、AI Techコンサルティングのためのソフトウェアのようなマージンを約束し、数十年前の産業を混乱させます

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

【ヒカキン】雪・川ダイブ集 (2012~2025)【元日】#shorts

返事を書く返事をキャンセル