Openaiの新しい推論AIモデルはさらに幻覚を示します

Openai’s 最近、O3およびO4-MINI AIモデルを発売しました 多くの点で最先端です。しかし、新しいモデルはまだ幻覚、または物事を構成します – 実際、彼らは幻覚します もっと Openaiの古いモデルのいくつかよりも。

幻覚は、AIで解決するのが最大かつ最も困難な問題の1つであり、影響を与えていることが証明されています。 今日の最高のパフォーマンスシステムでさえ。歴史的に、各新しいモデルは幻覚部門でわずかに改善されており、その前任者よりも幻覚が少なくなりました。しかし、それはO3とO4-miniの場合ではないようです。

Openaiの内部テストによると、いわゆる推論モデルであるO3とO4-Mini、幻覚 より頻繁に 同社の以前の推論モデルであるO1、O1-MINI、およびO3-MINI、およびGPT-4OなどのOpenAIの伝統的な「非合理的」モデルよりも。

おそらくもっと懸念して、ChatGptメーカーはなぜそれが起こっているのか本当に知りません。

の技術レポートで O3およびO4-MINIOpenaiは、推論モデルを拡大するにつれて幻覚が悪化している理由を理解するために「より多くの研究が必要だ」と書いています。 O3とO4-MINIは、コーディングや数学に関連するタスクを含む一部の領域でパフォーマンスが向上します。しかし、彼らは「全体としてより多くの主張をする」ため、レポートによると、「より多くの主張をする」ため、「より正確な主張と、より不正確な/幻覚の主張」をすることがよくあります。

Openaiは、O3が人に関するモデルの知識の正確性を測定するための会社の社内ベンチマークであるPersonqaに関する質問の33%に応じて幻覚を起こしたことを発見しました。これは、それぞれ16%と14.8%を獲得したOpenaiの以前の推論モデルであるO1およびO3-Miniの幻覚率のほぼ2倍です。 O4-MiniはPersonqaでさらに悪化しました。

第三者 テスト 非営利のAI Research LabであるTransuceによって、O3が回答に到達する過程で取ったアクションを構成する傾向があるという証拠も発見しました。一例では、2021 MacBook Proで「ChatGPT以外」でコードを実行したと主張して、観察されたO3を翻訳し、数字を回答にコピーしました。 O3はいくつかのツールにアクセスできますが、それはできません。

「私たちの仮説は、Oシリーズモデルに使用される補強学習の種類は、標準的なトレーニング後のパイプラインによって通常緩和される(完全に消去されない)問題を増幅する可能性があるということです」と、TechCrunchへのメールで、研究者で元Openaiの従業員であるNeil Chowdhury氏は述べています。

Transluseの共同設立者であるSarah Schwettmannは、O3の幻覚率がそうでなければそれをあまり有用ではないと付け加えました。

スタンフォード大学の非常勤教授兼CEOであるKian Katanforooshは、高級スタートアップWorkeraのCEOであり、彼のチームがすでにコーディングワークフローでO3をテストしており、競合他社の一歩を超えていることがわかったことをTechCrunchに語りました。しかし、Katanforooshは、O3は壊れたウェブサイトのリンクを幻覚化する傾向があると言います。モデルは、クリックしたときに機能しないリンクを提供します。

幻覚は、モデルが興味深いアイデアに到達し、「思考」において創造的になるのに役立つかもしれませんが、一部のモデルは、正確さが最重要である市場の企業にとって厳しい売りにもなります。たとえば、法律事務所は、クライアント契約に多くの事実上のエラーを挿入するモデルに満足していない可能性があります。

モデルの精度を高めるための有望なアプローチの1つは、Web検索機能を提供することです。 Web検索でOpenaiのGPT-4oが達成されます 90%の精度 SimpleQaでは、Openaiの精度ベンチマークのもう1つ。潜在的に、検索は、少なくともユーザーがプロンプトをサードパーティ検索プロバイダーにさらすことをいとわない場合に、推論モデルの幻覚率を改善する可能性があります。

推論モデルをスケールアップすると、実際に幻覚が悪化し続けると、ソリューションの狩りがさらに緊急になります。

「すべてのモデルで幻覚に対処することは進行中の研究分野であり、私たちはその精度と信頼性を向上させるために継続的に取り組んでいます」と、TechCrunchへのメールで、OpenaiのスポークスマンであるNiko Felix氏は述べています。

昨年、より広範なAI業界は、その後の推論モデルに焦点を当てるようにピボットしました 従来のAIモデルを改善するための技術は、リターンの減少を示し始めました。推論は、トレーニング中に膨大な量のコンピューティングとデータを必要とせずに、さまざまなタスクのモデルパフォーマンスを改善します。しかし、それはまた、推論がより多くの幻覚につながる可能性があるようです – 挑戦を提示します。

フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link