Meta Execは、会社が人工的に後押しされたLlama4のベンチマークスコアを拒否します

By インモビ運営局

2025年4月8日

0

2

【国内正規品】MonsGeek(モンスギーク) FUN60 Pro SP 有線モデル HEセンサー 0.01mm ラピッドトリガー対応磁気スイッチ Akko Glare Magnetic Switch 英語配列テンキーレスサイドプリント有線8K ホットスワップ SnapKeys (SOCD)対応 ARGB対応高コスパゲーミングキーボード White

(32)

￥5,980 (2025年4月28日 13:05 GMT +09:00 時点 - )

XPPen ペンタブレット Decoシリーズ板タブスマホ対応絵描きペイントソフト付きイラストコンテスト記念版 Deco01V2 Android

(2413)

￥5,450 (2025年4月28日 13:11 GMT +09:00 時点 - )

Anker USB-C & USB 3.0 変換アダプタ 2個セット Type C USB-A 最大5Gbps MacBook Pro/MacBook Air/iPad Pro その他 USB-C 端末用

(7986)

￥999 (2025年4月28日 13:11 GMT +09:00 時点 - )

Meta Execは、会社が人工的に後押しされたLlama4のベンチマークスコアを拒否します

月曜日のメタエグゼクティブは、モデルの弱点を隠しながら、特定のベンチマークでよく提示するために、同社が新しいAIモデルを訓練したという噂を否定しました。

エグゼクティブ、Ahmad Al-Dahle、メタの生成AIの副社長、 xの投稿で言ったメタが訓練したのは「単に真実ではない」ことラマ4マーベリックとラマ4スカウトモデル「テストセット」で。 AIベンチマークでは、テストセットは、モデルがトレーニングされた後のパフォーマンスを評価するために使用されるデータのコレクションです。テストセットでのトレーニングは、モデルのベンチマークスコアを誤解させて膨らませ、モデルを実際よりも能力を高める可能性があります。

週末に、根拠のない噂メタが新しいモデルのベンチマーク結果を人為的に高めたことは、XとRedditで流通し始めました。この噂は、会社のベンチマーク慣行に抗議してメタを辞任したと主張するユーザーからの中国のソーシャルメディアサイトの投稿から生まれたようです。

マーベリックとスカウトの報告実行する不十分ですの上特定のタスクメタが使用するという決定がしたように、噂を燃やしました Maverickの実験的な未発表のバージョンベンチマークでより良いスコアを達成するため LMアリーナ。 Xの研究者は持っています観察されたスターク動作の違い LMアリーナでホストされているモデルと比較した、公開可能なマーベリックの。

Al-Dahleは、一部のユーザーがモデルをホストするさまざまなクラウドプロバイダーでマーベリックとスカウトから「混合品質」を見ていることを認めました。

「モデルが準備ができたらすぐにドロップしたので、すべての公開実装がダイヤルされるまでに数日かかると予想しています」とAl-Dahle氏は言います。「バグの修正とオンボーディングパートナーを通じて作業を続けています。」

Source link