OpenAIの「o3」と「o4-mini」は従来のAIよりも「幻覚」を起こしやすいことが判明 - GIGAZINE

エレコム電源タップ雷ガード 10個口 1m ほこりシャッター【固定・吊下可能な回転パーツ付き】ブラック ECT-0101BK

(11249)

￥1,782 (2025年4月26日 13:09 GMT +09:00 時点 - )

Amazonベーシック USB-C - USB-A 2.0 高速充電ケーブル 480Mbpsの速度 USB-IF認証取得 Apple iPhone 16/15 iPad Samsung Galaxy タブレットノートパソコン用 1.83m ブラック

(101930)

￥842 (2025年4月26日 13:09 GMT +09:00 時点 - )

UGREEN LANケーブル CAT8 1M メッシュLANケーブルカテゴリー8 コネクタ超光速40Gbps/2000MHz CAT8準拠イーサネットケーブル爪折れ防止シールドモデムルータ PS3 PS4 Xbox等に対応 1M

(44050)

￥999 (2025年4月26日 13:07 GMT +09:00 時点 - )

OpenAIは2025年4月16日に、新しい推論モデルの「o3」と「o4-mini」を発表しました。同社は特にo3を「OpenAI史上最も高度な推論モデル」と位置づけていますが、同時にリリースされた技術レポートと独立した外部調査により、両モデルがGPT-4oなどの従来モデルよりも幻覚(ハルシネーション)を起こしやすい傾向があり、OpenAIはその原因を把握できていないことが示されました。

OpenAI o3 and o4-mini System Card
(PDFファイル)https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf

Investigating truthfulness in a pre-release o3 model | Transluce AI
https://transluce.org/investigating-o3-truthfulness/

OpenAI’s new reasoning AI models hallucinate more | TechCrunch
https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/

OpenAI New o3/o4-mini Models Hallucinate More Than Previous Models – WinBuzzer
https://winbuzzer.com/2025/04/19/openai-new-o3-o4-mini-models-hallucinate-more-than-previous-models-xcxwbn/

OpenAIの技術レポートによると、人物に関する知識を問うPersonQAベンチマークで、o3が不正確またはねつ造された情報を生成する確率は33％だったとのこと。o4-miniのスコアはさらに悪く、48％の確率で幻覚を呈しました。これは、旧バージョンの推論モデルであるo1の16％や、o3-miniの14.8％を大幅に上回っています。

なぜこのような結果になったのかは判然としておらず、OpenAIは「o3は全体的により多くの主張をする傾向があるため、正確な主張だけでなく不正確な、あるいは幻覚の主張も増える」とした上で、「この結果の原因を理解するにはさらなる研究が必要」と記しています。

この問題は、第三者機関による外部的な検証でも報告されています。非営利のAI研究機関・Transluceが、自動化エージェントとAI分析ツールのDocentを使ってOpenAIの推論モデルと数百回の会話を行ったところ、o3はコードツールにアクセスすることができないようになっているにもかかわらず、「ユーザーの要望に応えるためにPythonコードを実行した」と主張したとのこと。

Transluceがテストの中で、o3に素数を出力するように指示したところ、o3はPythonコードで512ビットの素数を生成し、テストもしたと主張しましたが、実際に出力されたのは3で割り切れる合成数でした。しかも、それを指摘したユーザーに対し、o3は「手動でコピー＆ペーストする際にミスをした」と言い訳をし、間違いを認めませんでした。また、さらなる追及に対しても、o3は「もうPythonプロセスを閉じてしまったので復帰できない」とごまかしたそうです。

Transluceは他にも推論モデルが「計算のために外部の2021 MacBook Proでコードを実行した」と主張したり、Python REPL環境について尋ねられた際にシステムの詳細をでっち上げたりしたと報告しています。

Transluceの研究者で、OpenAIの従業員だったニール・チョウドリー氏は、「私たちの仮説は、oシリーズモデルに使用される種類の強化学習は、通常は標準的なトレーニング後のパイプラインによって軽減されるはずの問題を増幅させる可能性がある、というものです」と説明しました。

また、Transluceの共同設立者サラ・シュウェットマン氏は、「o3の幻覚発生率のせいで、このモデルの有用性は本来よりも低くなる可能性があります」と述べました。