クラウドソーシングされたAIベンチマークには深刻な欠陥があると、一部の専門家は言います

JAMJAKE iPad ペンシルアップルペンシル 2018年～2025年 iPad対応タッチペン超高感度極細スタイラスペン Type-C急速充電傾き感知/磁気吸着/誤作動防止機能対応軽量耐摩学生子供筆記絵を描くデザイン用ドローイング用

(103609)

￥1,881 (2025年4月26日 13:07 GMT +09:00 時点 - )

エレコムウェットティッシュ液晶用クリーナー 15枚入り液晶画面にやさしいノンアルコールタイプ日本製 WC-DP15PN4

(5312)

￥764 (2025年4月26日 13:09 GMT +09:00 時点 - )

SUNGUY USB-C Lightningケーブル 0.5M 2本セット【MFi認証取得】タイプc ライトニングケーブル PD対応 20W急速充電 iPhone 充電ケーブル Carplay対応高耐久ナイロン編み iPhone 14 13 12 XR XS iPhone 8 7 6 SEなどに対応短い 50cm グレー

(136)

￥990 (2025年4月26日 13:09 GMT +09:00 時点 - )

AIラボは、などのクラウドソーシングされたベンチマークプラットフォームにますます依存していますチャットボットアリーナ最新のモデルの長所と短所を調べる。しかし、一部の専門家は、このアプローチには深刻な問題があると言います倫理的および学問的な観点から。

過去数年にわたり、Openai、Google、Metaを含むラボは、今後のモデルの機能を評価するためにユーザーを募集するプラットフォームに目を向けてきました。モデルが好意的に得点すると、その背後にあるラボは、意味のある改善の証拠としてそのスコアを宣伝することがよくあります。

しかし、ワシントン大学の言語学教授であり、本「The Ai Con」の共著者であるエミリー・ベンダーによると、それは欠陥のあるアプローチです。 Benderは、Chatbot Arenaで特定の問題を抱えています。これは、2つの匿名モデルを促し、好みの応答を選択することでボランティアをタスクします。

「有効であるためには、ベンチマークは特定の何かを測定する必要があり、構成の妥当性を持つ必要があります。つまり、関心のある構成が明確に定義されており、測定値が実際に構成に関連しているという証拠が必要です」とベンダーは言いました。「Chatbot Arenaは、1つの出力に対する投票が実際に好みと相関することを示していませんが、それらが定義される可能性があります。」

AI会社レーサンの共同設立者であり、分散型AI研究所のフェローであるAsmelash Teka Hadguは、Chatbot ArenaのようなベンチマークがAIラボによって「採用された」という「採用された請求を促進する」と考えていると述べました。 Hadguは、MetaのLlama 4 Maverickモデルを含む最近の論争を指摘しました。メタは、マーベリックのバージョンを微調整してチャットボットアリーナで得点しましたリリースに有利なモデルを差し控えるためだけより悪いパフォーマンスバージョン。

「ベンチマークは静的データセットではなく動的である必要があります」とHadgu氏は次のように述べています。 [models] 仕事のために。」

以前はアスペン研究所の緊急技術イニシアチブを率いていたHadguとKristine Gloriaは、モデル評価者が仕事に対して補償されるべきであると主張しました。 Gloria氏は、AI Labsはデータラベル付け業界の間違いから学ぶべきだと言いました。悪名高いそのため搾取的実践。（いくつかのラボがあります被告同じ。）

「一般的に、クラウドソーシングされたベンチマークプロセスは貴重であり、市民科学のイニシアチブを思い出させます」とグロリアは言いました。「理想的には、データの評価と微調整の両方にある程度の深さを提供するために追加の視点をもたらすのに役立ちます。しかし、ベンチマークが評価の唯一のメトリックであるべきではありません。業界とイノベーションが迅速に移動すると、ベンチマークは急速に信頼できなくなります。」

グレイスワンAIのCEOであるMatt Frederiksonは、モデル向けのクラウドソーシングレッドチームキャンペーンを実施しており、「新しいスキルの学習と実践」など、さまざまな理由でボランティアがグレイスワンのプラットフォームに引き付けられると述べました。（グレイスワンはまた、いくつかのテストに対してキャッシュ賞を授与します。）それでも、彼はパブリックベンチマークが「代替」の「プライベート」評価の「代替」ではないことを認めました。

「[D]また、Evelopersは、内部ベンチマーク、アルゴリズムレッドチーム、およびよりオープンエンドのアプローチをとるか、特定のドメインの専門知識をもたらすことができるレッドチームを契約する必要があります」とFrederikson氏は述べています。

Model Marketplace OpenRouterのCEOであるAlex Atallahは、最近Openaiと提携してユーザーに早期アクセスを許可しました OpenaiのGPT-4.1モデルモデルだけのオープンテストとベンチマークだけで「十分ではない」と述べました。カリフォルニア州バークレーのAI博士課程の学生であり、チャットボットアリーナを維持しているLmarenaの創設者の1人であるWei-Lin Chiangもそうでした。

「私たちは確かに他のテストの使用をサポートしています」とチェンは言いました。「私たちの目標は、さまざまなAIモデルに関するコミュニティの好みを測定する信頼できるオープンスペースを作成することです。」

チェンは、マーベリックベンチマークの矛盾などの事件は、チャットボットアリーナのデザインの欠陥の結果ではなく、ラボがそのポリシーを誤って解釈する結果であると述べました。 LMアリーナは、将来の矛盾が発生するのを防ぐための措置を講じた、とチアンは、「公正で再現可能な評価へのコミットメントを強化する」ポリシーを更新することを含むと述べた。

「私たちのコミュニティは、ボランティアやモデルのテスターとしてここにいません」とチェンは言いました。「人々はLMアリーナを使用しています。なぜなら、私たちは彼らにAIと関わり、集合的なフィードバックを与えるためにオープンで透明な場所を与えているからです。リーダーボードがコミュニティの声を忠実に反映している限り、私たちはそれを共有することを歓迎します。」

Source link