OpenaiのO3AIモデルは、会社が最初に暗示したよりもベンチマークで低いスコアを低くします

OpenaiのO3 AIモデルの1党とサードパーティのベンチマーク結果の矛盾は 会社の透明性について質問を提起します モデルテストの実践。

Openai時 12月にO3を発表しました同社は、モデルがFrontiermathに関する4分の1以上の質問に答えることができると主張しました。そのスコアは競争を吹き飛ばしました – 次のベストモデルは、Frontiermathの問題の約2%しか正しく答えませんでした。

「今日、そこにあるすべての製品は2%未満です [on FrontierMath]、」Openaiの最高研究責任者であるMark Chen、 ライブストリーム中に言った。 「私たちは見ています [internally]積極的なテスト時間計算設定にO3を使用すると、25%を超えることができます。」

結局のところ、その数字はおそらく上限であり、先週公開されたモデルOpenaiよりも多くのコンピューティングがあるO3のバージョンによって達成されました。

Frontiermathの背後にある研究所であるEpoch AIは、金曜日にO3の独立したベンチマークテストの結果を発表しました。エポックは、O3がOpenaiの最高の請求スコアを大きく下回って約10%を獲得したことを発見しました。

それは、それ自体が嘘をついたという意味ではありません。 12月に公開された会社が発行したベンチマークの結果は、観察されたスコアエポックに一致する下限スコアを示しています。エポックはまた、そのテストのセットアップはOpenaiのセットアップとは異なる可能性が高く、その評価のためにFrontiermathの更新リリースを使用したと述べました。

「私たちの結果とOpenaiの違いは、より強力な内部足場でOpenaiが評価され、より多くのテスト時間を使用することによる可能性があります [computing]または、これらの結果がFrontiermathの異なるサブセットで実行されたため(Frontiermath-2024-11-26の180の問題とFrontiermath-2025-02-28-Privateの290の問題)、」 書いた エポック。

Xの投稿によると O3のプレリリースバージョンをテストした組織であるARC賞財団から、パブリックO3モデルは「別のモデルです」 […] チャット/製品の使用に合わせて調整します」と、エポックのレポートを裏付けています。

「すべてのリリースされたO3コンピューティア層は、私たちがバージョンよりも小さいです [benchmarked]、ARC賞を書きました。一般的に言えば、より大きなコンピューティング層がより良いベンチマークスコアを達成することが期待できます。

確かに、O3の公開リリースがOpenaiのテストの約束に達していないという事実は、FrontiermathのO3-Mini-HighおよびO4-MiniモデルがO3を上回るため、OpenAIが今後数週間でより強力なO3バリアント、O3-Proをデビューする予定です。

ただし、特にソースが販売するサービスを持っている会社である場合、AIベンチマークは額面どおりに採取されないことを最適にすることを思い出させてください。

ベンダーが新しいモデルで見出しとマインドシェアをキャプチャするためにベンダーが競争するにつれて、ベンチマークの「論争」はAI業界で一般的な出来事になりつつあります。

1月、エポックはそうでした 批判された 会社がO3を発表した後まで、Openaiからの資金を開示するのを待っていました。 Frontiermathに貢献した多くの学者は、公開されるまでOpenaiの関与について知らされていませんでした。

最近では、Elon MuskのXaiはそうでした 被告 最新のAIモデルであるGrok 3の誤解を招くベンチマークチャートを公開すること 会社が開発者が利用できるようにしたモデルとは異なるモデル



フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link