KINGONEタッチペン【全機種対応 超高速充電】 2025業界最高 スタイラスペン 超高精度 1MM極細 アップルペンシル互換ペン 誤ON/OFF防止/電量表示/傾き検知/二重磁気吸着機能対応 iPad用ペンシル 軽量 耐摩 耐久 iPad/iPhone/Android/スマホ/タブレット対応タッチペン (ホワイト)
¥1,798 (2025年4月26日 13:07 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)【正規MFi認証品】 iPhone 充電ケーブル ライトニングケーブル 2M 4本セット iPhone 充電器 ケーブル lightning ケーブル アイフォン充電ケーブル 2.4A急速充電 USB同期 高速データ転送 断線防止 超高耐久 iPhone 14/14 Pro/13/13 Pro/12/11/X/8/8plus/7/6/iPad 各種対応
¥749 (2025年4月26日 13:05 GMT +09:00 時点 - 詳細はこちら価格および発送可能時期は表示された日付/時刻の時点のものであり、変更される場合があります。本商品の購入においては、購入の時点で当該の Amazon サイトに表示されている価格および発送可能時期の情報が適用されます。)
OpenAIは2025年4月16日に、新しい推論モデルの「o3」と「o4-mini」を発表しました。同社は特にo3を「OpenAI史上最も高度な推論モデル」と位置づけていますが、同時にリリースされた技術レポートと独立した外部調査により、両モデルがGPT-4oなどの従来モデルよりも幻覚(ハルシネーション)を起こしやすい傾向があり、OpenAIはその原因を把握できていないことが示されました。
OpenAI o3 and o4-mini System Card
(PDFファイル)https://cdn.openai.com/pdf/2221c875-02dc-4789-800b-e7758f3722c1/o3-and-o4-mini-system-card.pdf
Investigating truthfulness in a pre-release o3 model | Transluce AI
https://transluce.org/investigating-o3-truthfulness/
OpenAI’s new reasoning AI models hallucinate more | TechCrunch
https://techcrunch.com/2025/04/18/openais-new-reasoning-ai-models-hallucinate-more/
OpenAI New o3/o4-mini Models Hallucinate More Than Previous Models – WinBuzzer
https://winbuzzer.com/2025/04/19/openai-new-o3-o4-mini-models-hallucinate-more-than-previous-models-xcxwbn/
OpenAIの技術レポートによると、人物に関する知識を問うPersonQAベンチマークで、o3が不正確またはねつ造された情報を生成する確率は33%だったとのこと。o4-miniのスコアはさらに悪く、48%の確率で幻覚を呈しました。これは、旧バージョンの推論モデルであるo1の16%や、o3-miniの14.8%を大幅に上回っています。
なぜこのような結果になったのかは判然としておらず、OpenAIは「o3は全体的により多くの主張をする傾向があるため、正確な主張だけでなく不正確な、あるいは幻覚の主張も増える」とした上で、「この結果の原因を理解するにはさらなる研究が必要」と記しています。
この問題は、第三者機関による外部的な検証でも報告されています。非営利のAI研究機関・Transluceが、自動化エージェントとAI分析ツールのDocentを使ってOpenAIの推論モデルと数百回の会話を行ったところ、o3はコードツールにアクセスすることができないようになっているにもかかわらず、「ユーザーの要望に応えるためにPythonコードを実行した」と主張したとのこと。
Transluceがテストの中で、o3に素数を出力するように指示したところ、o3はPythonコードで512ビットの素数を生成し、テストもしたと主張しましたが、実際に出力されたのは3で割り切れる合成数でした。しかも、それを指摘したユーザーに対し、o3は「手動でコピー&ペーストする際にミスをした」と言い訳をし、間違いを認めませんでした。また、さらなる追及に対しても、o3は「もうPythonプロセスを閉じてしまったので復帰できない」とごまかしたそうです。
Transluceは他にも推論モデルが「計算のために外部の2021 MacBook Proでコードを実行した」と主張したり、Python REPL環境について尋ねられた際にシステムの詳細をでっち上げたりしたと報告しています。
Transluceの研究者で、OpenAIの従業員だったニール・チョウドリー氏は、「私たちの仮説は、oシリーズモデルに使用される種類の強化学習は、通常は標準的なトレーニング後のパイプラインによって軽減されるはずの問題を増幅させる可能性がある、というものです」と説明しました。
また、Transluceの共同設立者サラ・シュウェットマン氏は、「o3の幻覚発生率のせいで、このモデルの有用性は本来よりも低くなる可能性があります」と述べました。
このような幻覚や不正確な主張を低減させ、モデルの精度を向上させるのに有望なアプローチとしては、ウェブ検索機能の付与が挙げられます。事実、GPT-4oはウェブ検索機能の追加により、SimpleQAで90%の精度を示しており、推論モデルでも同様の効果が期待できるとのこと。
OpenAIの広報担当者ニコ・フェリックス氏は、IT系ニュースサイト・TechCrunchに対し、「当社のすべてのモデルにおける幻覚への対処は進行中の研究分野であり、当社はその精度と信頼性の向上に継続的に取り組んでいます」と述べました。
この記事のタイトルとURLをコピーする