Meta Execは、会社が人工的に後押しされたLlama4のベンチマークスコアを拒否します

月曜日のメタエグゼクティブは、モデルの弱点を隠しながら、特定のベンチマークでよく提示するために、同社が新しいAIモデルを訓練したという噂を否定しました。

エグゼクティブ、Ahmad Al-Dahle、メタの生成AIの副社長、 xの投稿で言った メタが訓練したのは「単に真実ではない」こと ラマ4マーベリックとラマ4スカウトモデル 「テストセット」で。 AIベンチマークでは、テストセットは、モデルがトレーニングされた後のパフォーマンスを評価するために使用されるデータのコレクションです。テストセットでのトレーニングは、モデルのベンチマークスコアを誤解させて膨らませ、モデルを実際よりも能力を高める可能性があります。

週末に、 根拠のない噂 メタが新しいモデルのベンチマーク結果を人為的に高めたことは、XとRedditで流通し始めました。この噂は、会社のベンチマーク慣行に抗議してメタを辞任したと主張するユーザーからの中国のソーシャルメディアサイトの投稿から生まれたようです。

マーベリックとスカウトの報告 実行する 不十分です の上 特定のタスク メタが使用するという決定がしたように、噂を燃やしました Maverickの実験的な未発表のバージョン ベンチマークでより良いスコアを達成するため LMアリーナ。 Xの研究者は持っています 観察されたスターク 動作の違い LMアリーナでホストされているモデルと比較した、公開可能なマーベリックの。

Al-Dahleは、一部のユーザーがモデルをホストするさまざまなクラウドプロバイダーでマーベリックとスカウトから「混合品質」を見ていることを認めました。

「モデルが準備ができたらすぐにドロップしたので、すべての公開実装がダイヤルされるまでに数日かかると予想しています」とAl-Dahle氏は言います。 「バグの修正とオンボーディングパートナーを通じて作業を続けています。」

フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link