ホームニュースAIニュースAIベンチマークに関する議論はポケモンに到達しました

AIベンチマークに関する議論はポケモンに到達しました

2025年4月15日

4

AIベンチマークに関する議論はポケモンに到達しました

Pokémonでさえ、AIのベンチマーク論争から安全ではありません。

先週、a xに投稿します Googleの最新のGeminiモデルが元のPokémonビデオゲームの3部作で人類のフラッグシップクロードモデルを上回ったと主張して、バイラルになりました。伝えられるところによると、ジェミニは開発者のひきつりの流れでラベンダーの町に到着しました。クロードはそうでしたマウントムーンに立ち往生 2月下旬の時点。

ジェミニは、ラベンダーの町に着いた後、文字通りポケモンのクロードATMよりも先にいます

119のライブビューは、信じられないほど過小評価されているストリームのみです pic.twitter.com/8avsovai4x

-You（@you21e8） 2025年4月10日

しかし、投稿が言及しなかったのは、ジェミニが有利だったということです。

として Redditのユーザー Geminiストリームを維持する開発者は、モデルがカットテーブルツリーのようなゲームの「タイル」を識別するのに役立つカスタムミニマップを構築しました。これにより、ジェミニがゲームプレイの決定を下す前にスクリーンショットを分析する必要性が減ります。

現在、Pokémonはせいぜい半精力的なAIベンチマークです。モデルの機能の非常に有益なテストであると主張する人はほとんどいません。しかし、それはベンチマークの異なる実装が結果にどのように影響するかの有益な例。

たとえば、人類報告されていますベンチマークSWEベンチの最近の人類3.7ソネットモデルの2つのスコアは、モデルのコーディング能力を評価するように設計されています。 Claude 3.7 Sonnetは、SWEベンチの検証で62.3％の精度を達成しましたが、人類が発達した「カスタム足場」で70.3％を達成しました。

最近では、メタ微調整新しいモデルの1つであるLlama 4 Maverickのバージョンは、特定のベンチマークLM Arenaでうまく機能します。バニラのバージョンモデルのスコアのうち、同じ評価では大幅に悪化しています。

AIベンチマーク（ポケモンが含まれている）があることを考えると不完全な測定そもそも、カスタムと非標準の実装は、さらに水を泥だらけに脅かすと脅しています。つまり、モデルがリリースされたときにモデルを比較するのが簡単になる可能性が高いようです。

Source link

返事を書く返事をキャンセル

あなたのコメントを入力してください。

ここにあなたの名前を入力してください

間違ったメールアドレスを入力しました。

ここにあなたのEメールアドレスを入力してください

AIベンチマークに関する議論はポケモンに到達しました

いいね:

関連

伝えられるところによると、リビアンは関税のないバッテリーの備蓄に座っています

Appleは世界中のスパイウェア攻撃の新しい犠牲者に通知します

gruve.aiは、AI Techコンサルティングのためのソフトウェアのようなマージンを約束し、数十年前の産業を混乱させます

返事を書く返事をキャンセル

ABOUT US

FOLLOW US

PDSに圧力をかけるヒカキン2026.1.30@TORU#vlog #iphone#切り抜き

嘘をつくヒカキン #hikakintv #hikakin #ひかきん #ヒカキン #ヒカキン切り抜き #ヒカキンマニア #ヒカキンさん #ヒカキンゲームズ #ヒカキンマニア

ヒカキン衝撃の過去

AIベンチマークに関する議論はポケモンに到達しました

共有:

いいね:

関連

伝えられるところによると、リビアンは関税のないバッテリーの備蓄に座っています

Appleは世界中のスパイウェア攻撃の新しい犠牲者に通知します

gruve.aiは、AI Techコンサルティングのためのソフトウェアのようなマージンを約束し、数十年前の産業を混乱させます

返事を書く 返事をキャンセル

ABOUT US

FOLLOW US

返事を書く返事をキャンセル