メタのバニラマーベリックAIモデルは、人気のチャットベンチマークでライバルの下にランクされています

今週初め、メタ お湯に着陸しました Llama 4 Maverickモデルの実験的な未発表のバージョンを使用して、クラウドソーシングベンチマークLM Arenaで高いスコアを達成するため。事件 LMアリーナのメンテナーに謝罪しましたポリシーを変更し、変更されていないバニラマーベリックを獲得します。

結局のところ、それはあまり競争力がありません。

変更されていないマーベリック、「llama-4-maverick-17b-128e-instruct」 モデル以下でランク付けされました OpenaiのGPT-4O、Anthropic’s Claude 3.5 Sonnet、およびGoogleのGemini 1.5 Proを金曜日に含む。これらのモデルの多くは数ヶ月前です。

なぜパフォーマンスが悪いのですか?メタの実験的マーベリック、ラマ-4-Maverick-03-26-経験は「会話のために最適化された」と同社は説明した。 公開されたチャート 先週の土曜日。これらの最適化は、人間の評価者がモデルの出力を比較し、それらが好むものを選択しているLMアリーナにとって明らかにうまく機能しました。

前に書いたようにさまざまな理由で、LMアリーナはAIモデルのパフォーマンスの最も信頼できる尺度ではありませんでした。それでも、モデルをベンチマークに合わせて調整することは、誤解を招くだけでなく、開発者がモデルが異なるコンテキストでどれだけうまく機能するかを正確に予測することを困難にします。

声明の中で、メタの広報担当者はTechCrunchに、「あらゆる種類のカスタムバリアント」を使用してメタが実験することを語った。

「 ‘llama-4-maverick-03-26-Experimmal’は、ラマーナでもうまく機能するチャット最適化バージョンです」とスポークスマンは言いました。 「私たちは現在、オープンソースバージョンをリリースしており、開発者が自分のユースケースのためにLlama 4をカスタマイズする方法を確認します。彼らが何を構築するかを見て、進行中のフィードバックを楽しみにしています。」



フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link