クラウドソーシングされたAIベンチマークには深刻な欠陥があると、一部の専門家は言います

AIラボは、などのクラウドソーシングされたベンチマークプラットフォームにますます依存しています チャットボットアリーナ 最新のモデルの長所と短所を調べる。しかし、一部の専門家は、このアプローチには深刻な問題があると言います 倫理的および学問的な観点から

過去数年にわたり、Openai、Google、Metaを含むラボは、今後のモデルの機能を評価するためにユーザーを募集するプラットフォームに目を向けてきました。モデルが好意的に得点すると、その背後にあるラボは、意味のある改善の証拠としてそのスコアを宣伝することがよくあります。

しかし、ワシントン大学の言語学教授であり、本「The Ai Con」の共著者であるエミリー・ベンダーによると、それは欠陥のあるアプローチです。 Benderは、Chatbot Arenaで特定の問題を抱えています。これは、2つの匿名モデルを促し、好みの応答を選択することでボランティアをタスクします。

「有効であるためには、ベンチマークは特定の何かを測定する必要があり、構成の妥当性を持つ必要があります。つまり、関心のある構成が明確に定義されており、測定値が実際に構成に関連しているという証拠が必要です」とベンダーは言いました。 「Chatbot Arenaは、1つの出力に対する投票が実際に好みと相関することを示していませんが、それらが定義される可能性があります。」

AI会社レーサンの共同設立者であり、分散型AI研究所のフェローであるAsmelash Teka Hadguは、Chatbot ArenaのようなベンチマークがAIラボによって「採用された」という「採用された請求を促進する」と考えていると述べました。 Hadguは、MetaのLlama 4 Maverickモデルを含む最近の論争を指摘しました。 メタは、マーベリックのバージョンを微調整してチャットボットアリーナで得点しましたリリースに有利なモデルを差し控えるためだけ より悪いパフォーマンスバージョン

「ベンチマークは静的データセットではなく動的である必要があります」とHadgu氏は次のように述べています。 [models] 仕事のために。」

以前はアスペン研究所の緊急技術イニシアチブを率いていたHadguとKristine Gloriaは、モデル評価者が仕事に対して補償されるべきであると主張しました。 Gloria氏は、AI Labsはデータラベル付け業界の間違いから学ぶべきだと言いました。 悪名高い そのため 搾取的 実践。 (いくつかのラボがあります 被告 同じ。)

「一般的に、クラウドソーシングされたベンチマークプロセスは貴重であり、市民科学のイニシアチブを思い出させます」とグロリアは言いました。 「理想的には、データの評価と微調整の両方にある程度の深さを提供するために追加の視点をもたらすのに役立ちます。しかし、ベンチマークが評価の唯一のメトリックであるべきではありません。業界とイノベーションが迅速に移動すると、ベンチマークは急速に信頼できなくなります。」

グレイスワンAIのCEOであるMatt Frederiksonは、モデル向けのクラウドソーシングレッドチームキャンペーンを実施しており、「新しいスキルの学習と実践」など、さまざまな理由でボランティアがグレイスワンのプラットフォームに引き付けられると述べました。 (グレイスワンはまた、いくつかのテストに対してキャッシュ賞を授与します。)それでも、彼はパブリックベンチマークが「代替」の「プライベート」評価の「代替」ではないことを認めました。

「[D]また、Evelopersは、内部ベンチマーク、アルゴリズムレッドチーム、およびよりオープンエンドのアプローチをとるか、特定のドメインの専門知識をもたらすことができるレッドチームを契約する必要があります」とFrederikson氏は述べています。

Model Marketplace OpenRouterのCEOであるAlex Atallahは、最近Openaiと提携してユーザーに早期アクセスを許可しました OpenaiのGPT-4.1モデルモデルだけのオープンテストとベンチマークだけで「十分ではない」と述べました。カリフォルニア州バークレーのAI博士課程の学生であり、チャットボットアリーナを維持しているLmarenaの創設者の1人であるWei-Lin Chiangもそうでした。

「私たちは確かに他のテストの使用をサポートしています」とチェンは言いました。 「私たちの目標は、さまざまなAIモデルに関するコミュニティの好みを測定する信頼できるオープンスペースを作成することです。」

チェンは、マーベリックベンチマークの矛盾などの事件は、チャットボットアリーナのデザインの欠陥の結果ではなく、ラボがそのポリシーを誤って解釈する結果であると述べました。 LMアリーナは、将来の矛盾が発生するのを防ぐための措置を講じた、とチアンは、「公正で再現可能な評価へのコミットメントを強化する」ポリシーを更新することを含むと述べた。

「私たちのコミュニティは、ボランティアやモデルのテスターとしてここにいません」とチェンは言いました。 「人々はLMアリーナを使用しています。なぜなら、私たちは彼らにAIと関わり、集合的なフィードバックを与えるためにオープンで透明な場所を与えているからです。リーダーボードがコミュニティの声を忠実に反映している限り、私たちはそれを共有することを歓迎します。」

フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link