Pokémonでさえ、AIのベンチマーク論争から安全ではありません。
先週、a xに投稿します Googleの最新のGeminiモデルが元のPokémonビデオゲームの3部作で人類のフラッグシップクロードモデルを上回ったと主張して、バイラルになりました。伝えられるところによると、ジェミニは開発者のひきつりの流れでラベンダーの町に到着しました。クロードはそうでした マウントムーンに立ち往生 2月下旬の時点。
ジェミニは、ラベンダーの町に着いた後、文字通りポケモンのクロードATMよりも先にいます
119のライブビューは、信じられないほど過小評価されているストリームのみです pic.twitter.com/8avsovai4x
-You(@you21e8) 2025年4月10日
しかし、投稿が言及しなかったのは、ジェミニが有利だったということです。
として Redditのユーザー Geminiストリームを維持する開発者は、モデルがカットテーブルツリーのようなゲームの「タイル」を識別するのに役立つカスタムミニマップを構築しました。これにより、ジェミニがゲームプレイの決定を下す前にスクリーンショットを分析する必要性が減ります。
現在、Pokémonはせいぜい半精力的なAIベンチマークです。モデルの機能の非常に有益なテストであると主張する人はほとんどいません。しかし、それ は ベンチマークの異なる実装が結果にどのように影響するかの有益な例。
たとえば、人類 報告されています ベンチマークSWEベンチの最近の人類3.7ソネットモデルの2つのスコアは、モデルのコーディング能力を評価するように設計されています。 Claude 3.7 Sonnetは、SWEベンチの検証で62.3%の精度を達成しましたが、人類が発達した「カスタム足場」で70.3%を達成しました。
最近では、メタ 微調整 新しいモデルの1つであるLlama 4 Maverickのバージョンは、特定のベンチマークLM Arenaでうまく機能します。 バニラのバージョン モデルのスコアのうち、同じ評価では大幅に悪化しています。
AIベンチマーク(ポケモンが含まれている)があることを考えると 不完全な測定 そもそも、カスタムと非標準の実装は、さらに水を泥だらけに脅かすと脅しています。つまり、モデルがリリースされたときにモデルを比較するのが簡単になる可能性が高いようです。