OpenAIは2025年4月16日に、新しい推論モデルの「o3」と「o4-mini」を発表しました。同社は特にo3を「OpenAI史上最も高度な推論モデル」と位置づけていますが、同時にリリースされた技術レポートと独立した外部調査により、両モデルがGPT-4oなどの従来モデルよりも幻覚(ハルシネーション)を起こしやすい傾向があり、OpenAIはその原因を把握できていないことが示されました。

OpenAI o3 and o4-mini System Card
(PDFファイル)https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

Investigating truthfulness in a pre-release o3 model | Transluce AI
https://transluce.org/investigating-o3-truthfulness/

OpenAI’s new reasoning AI models hallucinate more | TechCrunch
https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

OpenAI New o3/o4-mini Models Hallucinate More Than Previous Models – WinBuzzer
https://winbuzzer.com/2025/04/19/openai-new-o3-o4-mini-models-hallucinate-more-than-previous-models-xcxwbn/

OpenAIの技術レポートによると、人物に関する知識を問うPersonQAベンチマークで、o3が不正確またはねつ造された情報を生成する確率は33%だったとのこと。o4-miniのスコアはさらに悪く、48%の確率で幻覚を呈しました。これは、旧バージョンの推論モデルであるo1の16%や、o3-miniの14.8%を大幅に上回っています。

なぜこのような結果になったのかは判然としておらず、OpenAIは「o3は全体的により多くの主張をする傾向があるため、正確な主張だけでなく不正確な、あるいは幻覚の主張も増える」とした上で、「この結果の原因を理解するにはさらなる研究が必要」と記しています。


この問題は、第三者機関による外部的な検証でも報告されています。非営利のAI研究機関・Transluceが、自動化エージェントとAI分析ツールのDocentを使ってOpenAIの推論モデルと数百回の会話を行ったところ、o3はコードツールにアクセスすることができないようになっているにもかかわらず、「ユーザーの要望に応えるためにPythonコードを実行した」と主張したとのこと。

Transluceがテストの中で、o3に素数を出力するように指示したところ、o3はPythonコードで512ビットの素数を生成し、テストもしたと主張しましたが、実際に出力されたのは3で割り切れる合成数でした。しかも、それを指摘したユーザーに対し、o3は「手動でコピー&ペーストする際にミスをした」と言い訳をし、間違いを認めませんでした。また、さらなる追及に対しても、o3は「もうPythonプロセスを閉じてしまったので復帰できない」とごまかしたそうです。

Transluceは他にも推論モデルが「計算のために外部の2021 MacBook Proでコードを実行した」と主張したり、Python REPL環境について尋ねられた際にシステムの詳細をでっち上げたりしたと報告しています。

Transluceの研究者で、OpenAIの従業員だったニール・チョウドリー氏は、「私たちの仮説は、oシリーズモデルに使用される種類の強化学習は、通常は標準的なトレーニング後のパイプラインによって軽減されるはずの問題を増幅させる可能性がある、というものです」と説明しました。

また、Transluceの共同設立者サラ・シュウェットマン氏は、「o3の幻覚発生率のせいで、このモデルの有用性は本来よりも低くなる可能性があります」と述べました。


このような幻覚や不正確な主張を低減させ、モデルの精度を向上させるのに有望なアプローチとしては、ウェブ検索機能の付与が挙げられます。事実、GPT-4oはウェブ検索機能の追加により、SimpleQAで90%の精度を示しており、推論モデルでも同様の効果が期待できるとのこと。

OpenAIの広報担当者ニコ・フェリックス氏は、IT系ニュースサイト・TechCrunchに対し、「当社のすべてのモデルにおける幻覚への対処は進行中の研究分野であり、当社はその精度と信頼性の向上に継続的に取り組んでいます」と述べました。

この記事のタイトルとURLをコピーする

フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link