【国内正規品】MonsGeek(モンスギーク) FUN60 Pro SP 有線モデル HEセンサー 0.01mm ラピッドトリガー対応 磁気スイッチ Akko Glare Magnetic Switch 英語配列 テンキーレス サイドプリント 有線8K ホットスワップ SnapKeys (SOCD)対応 ARGB対応 高コスパ ゲーミングキーボード White
¥5,980 (2025年4月28日 13:05 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)
月曜日のメタエグゼクティブは、モデルの弱点を隠しながら、特定のベンチマークでよく提示するために、同社が新しいAIモデルを訓練したという噂を否定しました。
エグゼクティブ、Ahmad Al-Dahle、メタの生成AIの副社長、 xの投稿で言った メタが訓練したのは「単に真実ではない」こと ラマ4マーベリックとラマ4スカウトモデル 「テストセット」で。 AIベンチマークでは、テストセットは、モデルがトレーニングされた後のパフォーマンスを評価するために使用されるデータのコレクションです。テストセットでのトレーニングは、モデルのベンチマークスコアを誤解させて膨らませ、モデルを実際よりも能力を高める可能性があります。
週末に、 根拠のない噂 メタが新しいモデルのベンチマーク結果を人為的に高めたことは、XとRedditで流通し始めました。この噂は、会社のベンチマーク慣行に抗議してメタを辞任したと主張するユーザーからの中国のソーシャルメディアサイトの投稿から生まれたようです。
マーベリックとスカウトの報告 実行する 不十分です の上 特定のタスク メタが使用するという決定がしたように、噂を燃やしました Maverickの実験的な未発表のバージョン ベンチマークでより良いスコアを達成するため LMアリーナ。 Xの研究者は持っています 観察されたスターク 動作の違い LMアリーナでホストされているモデルと比較した、公開可能なマーベリックの。
Al-Dahleは、一部のユーザーがモデルをホストするさまざまなクラウドプロバイダーでマーベリックとスカウトから「混合品質」を見ていることを認めました。
「モデルが準備ができたらすぐにドロップしたので、すべての公開実装がダイヤルされるまでに数日かかると予想しています」とAl-Dahle氏は言います。 「バグの修正とオンボーディングパートナーを通じて作業を続けています。」