Openaiの新しいGPT-4.1 AIモデルは、コーディングに焦点を当てています

Openaiは月曜日にGPT-4.1と呼ばれる新しいモデルファミリーを立ち上げました。はい、「4.1」 – まるで会社の命名法がすでに十分に混乱していないかのようです。

GPT-4.1、GPT-4.1 MINI、およびGPT-4.1 NANOがあります。これらはすべて、コーディングと指示に次いで「Excel」と述べています。 OpenaiのAPIで利用できますが、そうではありません chatgptマルチモーダルモデルには、100万のトークンコンテキストウィンドウがあります。つまり、1回で約750,000語(「戦争と平和」よりも長い)を取ることができます。

GPT-4.1は、GoogleやAnthropic RatchetのようなOpenaiライバルが洗練されたプログラミングモデルを構築するための取り組みとして到着します。 Googleは最近リリースされました Gemini 2.5 Proまた、100万のトークンコンテキストウィンドウがあり、人気のあるコーディングベンチマークで非常にランク付けされています。人為的なものもそうです クロード3.7ソネット および中国のAIスタートアップ DeepseekのアップグレードV3

複雑なソフトウェアエンジニアリングタスクを実行できるAIコーディングモデルをトレーニングすることは、Openaiを含む多くのハイテク大手の目標です。 Openaiの壮大な野望は、「エージェントソフトウェアエンジニア」を作成することです。 CFOサラ・フリアーはそれを置いた 先月ロンドンで開催されたハイテクサミット中。同社は、将来のモデルがアプリ全体をエンドツーエンドでプログラムできると主張しており、品質保証、バグテスト、ドキュメントライティングなどの側面を処理しています。

GPT-4.1は、この方向へのステップです。

「開発者が最も関心のある領域で改善するための直接的なフィードバックに基づいて、実際のフィードバックに基づいて実世界の使用のためにGPT-4.1を最適化しました。フロントエンドコーディング、より少ない外部編集、フォーマット、信頼できる形式、応答構造と順序付け、一貫したツールの使用などを順守し、その他。 「これらの改善により、開発者は、実際のソフトウェアエンジニアリングタスクでかなり優れたエージェントを構築できます。」

Openaiは、完全なGPT-4.1モデルがそれよりも優れていると主張しています GPT-4OおよびGPT-4O MINI SWEベンチを含むベンチマークのコーディングモデル。 GPT-4.1ミニとナノは、ある程度の正確さを犠牲にしてより効率的かつ高速であると言われており、OpenaiはGPT-4.1 Nanoが最も速く、そして最も安価なモデルであると述べています。

GPT-4.1は、入力トークンあたり2ドル、100万ドルの出力トークンあたり8ドルかかります。 GPT-4.1 MINIは0.40/百万の入力トークンと1.60ドル/百万の出力トークンであり、GPT-4.1 NANOは0.10/百万の入力トークンと0.40/百万の出力トークンです。

Openaiの内部テストによれば、GPT-4.1は、GPT-4O(32,768対16,384)よりも一度に多くのトークンを生成でき、SWEベンチのヒト検証済みサブセットで52%〜54.6%を記録しました。 (Openaiは、ブログの投稿で、SWEベンチの検証済みの問題に対するいくつかの解決策がインフラストラクチャで実行できないため、スコアの範囲を実行できないことを指摘しました。)これらの数値は、Gemini 2.5 Pro(63.8%)およびClaude 3.7 Sonnet(62.3%)のGoogleおよび人類がそれぞれ同じベンチマークで報告しているスコアと人類がわずかに下にあります。

別の評価では、OpenAIはビデオMMEを使用してGPT-4.1を調査しました。これは、ビデオのコンテンツを「理解」するモデルの能力を測定するように設計されています。 GPT-4.1は、「長い、字幕なし」ビデオカテゴリでチャートトップの72%の精度に達しました、とOpenaiは主張しています。

GPT-4.1はベンチマークでかなりうまくスコアを付け、最近の「知識のカットオフ」を持っていますが、現在のイベントの参照の枠組み(2024年6月まで)を提供しますが、今日の最高のモデルのいくつかでさえ、専門家をつまずかない仕事で苦労していることに留意することが重要です。例えば、 多くの 研究 持っている 表示されています そのコード生成モデルは、セキュリティの脆弱性とバグを修正し、導入することさえしないことがよくあります。

Openaiは、GPT-4.1の信頼性が低くなることも認めています(つまり、間違いを犯す可能性があります)、より多くの入力トークンに対処しなければなりません。会社独自のテストの1つであるOpenai-MRCRでは、モデルの精度は約84%から8,000トークンで100万トークンの50%に減少しました。 GPT-4.1はまた、GPT-4oよりも「文字通り」である傾向がありました、と同社は言います。

フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link