OpenAIが「自社史上最も高度な推論モデル」と評価する「o3」と「o4-mini」を発表、テキストと同様に画像も使って考える「Thinking with images」が可能 - GIGAZINE

【Kindle Paperwhite・Kindle Paperwhiteシグニチャーエディション第12世代用】保護フィルムペーパータッチケント紙タイプ反射防止気泡レス加工 2枚入り

(110)

￥1,580 (2025年4月26日 13:09 GMT +09:00 時点 - )

Amazon Fire HD 10 キッズプロ (10インチ) ギャラクシー対象年齢6歳から数千点のキッズコンテンツが1年間使い放題

(474)

￥23,980 (2025年4月26日 13:09 GMT +09:00 時点 - )

【ブラザー純正】ブラザー工業(Brother Industries) インクカートリッジ4色パック(エコパッケージ) LC411-4PK-E 対応型番:DCP-J926N、MFC-J904N、MFC-J739DN、MFC-J939DN 他

(3024)

￥4,186 (2025年4月26日 13:07 GMT +09:00 時点 - )

OpenAIが新しいAI推論モデルとなる「o3」「o4-mini」のリリースを発表しました。OpenAIは特にo3を「OpenAIで史上最も高度な推論モデル」と称し、数学やコーディング、推論、科学、視覚理解能力を測定するベンチマークで従来モデルを上回る性能を発揮したとアピールしています。

Introducing OpenAI o3 and o4-mini | OpenAI
https://openai.com/index/introducing-o3-and-o4-mini/

OpenAI launches a pair of AI reasoning models, o3 and o4-mini | TechCrunch
https://techcrunch.com/2025/04/16/openai-launches-a-pair-of-ai-reasoning-models-o3-and-o4-mini/

OpenAI’s upgraded o3 model can use images when reasoning | The Verge
https://www.theverge.com/news/649941/openai-o3-o4-mini-model-images-reasoning

o3は「最も強力な推論モデル」という位置づけで、コード生成や数理解析、視覚情報の理解といった多面的なタスクで既存モデルを上回るベンチマーク結果を示しています。たとえば、AIME 2025ではツールなし設定で正答率88.9％に達し、CodeforcesではELO2700台を記録しました。

また、o3はプログラミングやコンサルティングなど実務寄りの課題でも高い精度を示しており、o1と比べて重大エラーが20％減少したとのこと。特に画像・図表を含む問題への対応力が強化され、学術系視覚ベンチマークのMMMUで82.9％を達成してSOTAスコアを更新しています。

o4‑miniはパラメータ規模を抑えつつ、高速・低コストで推論できるよう最適化されたモデルです。AIME 2024や2025ではそれぞれ93.4％、92.7％という驚異的なスコアを示し、小型モデルとしては異例の水準に到達しました。処理効率が高いため、利用上限も緩やかで、大量リクエストやリアルタイム性を重視する用途に向いているとOpenAIはアピールしています。

両モデルの開発では、大規模強化学習の「計算量を増やせば性能が伸びる」というスケーリング則を再確認するため、訓練計算量と推論時の「考えるステップ」がそれぞれ桁違いに増やされているとのこと。その結果、同じレイテンシーとコスト設定でもo1より高い精度を実現し、推論時間をさらに延長すると成績が右肩上がりに向上し続けることを実証したとOpenAIは報告しています。強化学習では「ツールをどう使うか」だけでなく「いつ使うか」まで学習させており、o3やo4-miniは検索やコーディング、ファイル解析、画像生成などのツールを目的ごとに組み合わせ、途中で得た情報を踏まえて計画を修正しながら解を導きます。

また、o3とo4-miniの大きな特徴が、画像を使って思考する(Thinking with images)という点で、テキストと画像を同列に扱い、途中で回転・拡大などの操作を挟みながら連鎖的に推論することが可能になりました。

Introducing OpenAI o3 and o4-mini—our smartest and most capable models to date.

For the first time, our reasoning models can agentically use and combine every tool within ChatGPT, including web search, Python, image analysis, file interpretation, and image generation. pic.twitter.com/rDaqV0x0wE

— OpenAI (@OpenAI) April 16, 2025

コスト性能面では、o3はo1より、o4‑miniはo3‑miniより高いコストパフォーマンスを示しています。たとえば、AIME 2025では、o3がより低コストで高精度を示しました。

また、o4-miniもo3miniより高いコストパフォーマンスを示したとOpenAIは報告しています。さらに、o4‑miniは同カテゴリで小型モデルとしては前例のない92.7％の正答率を記録したとのことで、大量リクエスト処理やリアルタイム応答ではo4‑miniの高スループットが特に有効だとOpenAIは述べています。

安全性向上のため、バイオリスクやマルウェア生成、脱獄(ジェイルブレイク)プロンプトに関する拒否データを刷新し、内部拒否ベンチで高い合格率を達成しました。加えて、人間が書いた安全仕様を読み解く推論LLMモニターを導入し、バイオリスク関連のやり取りの約99％を検知・遮断できることを確認したとOpenAiは報告しています。

o3・o4‑mini、そしてo4-miniの派生モデルであるo4‑mini‑highは、ChatGPTの有料サブスクリプションプランであるChatGPT Plus・ChatGPT Pro・ChatGPT Teamのユーザーであれば記事作成時点ですでに選択可能。また、無料ユーザーもo4‑miniを一部体験できます。APIでも両モデルが利用可能で、上位版のo3‑proも近日追加される予定となっています。

この記事のタイトルとURLをコピーする

Source link