AIモデルはまだソフトウェアをデバッグするのに苦労している、とMicrosoftの調査によると

OpenAI、人類、およびその他のトップAIラボのAIモデルは、プログラミングタスクを支援するためにますます使用されています。 Google CEOのSundar Pichai 10月に言った 会社の新しいコードの25%がAIとMeta CEO Mark Zuckerbergによって生成されています 野心を表明しました ソーシャルメディアの巨人内にAIコーディングモデルを広く展開します。

しかし、今日の最高のモデルのいくつかでさえ、経験豊富な開発者をつまずかないソフトウェアのバグを解決するのに苦労しています。

a 新しい研究 MicrosoftのR&D部門であるMicrosoft Researchから、人類を含むモデルが明らかにしています クロード3.7ソネット そしてOpenai’s o3-mini、 SWE-Bench Liteと呼ばれるソフトウェア開発ベンチマークで多くの問題をデバッグできません。結果は、それにもかかわらず、落ち着いたリマインダーです 大胆な 発音 Openaiのような企業からAIは、コーディングなどのドメインの人間の専門家に依然として一致していません。

この調査の共著者は、Pythonデバッガーを含む多くのデバッグツールにアクセスできる「単一のプロンプトベースのエージェント」のバックボーンとして9つの異なるモデルをテストしました。彼らは、このエージェントに、SWE-Bench Liteからの300のソフトウェアデバッグタスクのキュレーションセットを解決することを任命しました。

共著者によると、より強力で最近のモデルを装備している場合でも、エージェントはデバッグタスクの半分以上を正常に完了することはめったにありません。 Claude 3.7 Sonnetの成功率は最も高く(48.4%)、OpenaiのO1(30.2%)、O3-Mini(22.1%)が続きました。

Microsoft AIデバッグベンチマーク
研究からのチャート。 「相対的な増加」とは、デバッグツールを装備することから得られたブーストモデルを指します。画像クレジット:マイクロソフト

なぜ圧倒的なパフォーマンスがあるのですか?一部のモデルは、利用可能なデバッグツールを使用するのに苦労し、さまざまなツールがさまざまな問題にどのように役立つかを理解しました。しかし、共著者によると、より大きな問題はデータ不足でした。彼らは、現在のモデルのトレーニングデータに「順次意思決定プロセス」、つまり人間のデバッグトレースを表す十分なデータがないと推測しています。

「私たちは、トレーニングまたは微調整を強く信じています [models] 彼らの研究の共著者は次のように書いています。「しかし、これには、バグの修正を提案する前に必要な情報を収集するためにデバッガーと対話するエージェントを記録する軌跡データなど、このようなモデルトレーニングを満たすために特別なデータが必要になります。」

調査結果はまったく衝撃的ではありません。多くの研究があります 表示されています このコード生成AIは、プログラミングロジックを理解する能力などの分野の弱点により、セキュリティの脆弱性とエラーを導入する傾向があります。 Devinの最近の評価人気のあるAIコーディングツールは、20のプログラミングテストのうち3つしか完了できないことを発見しました。

しかし、Microsoftの作業は、モデルの持続的な問題領域で、より詳細な外観の1つです。おそらく湿らせないでしょう 投資家の熱意 AIを搭載したアシスタントコーディングツールの場合、運が良ければ、開発者とその上位の上位は、AIにコーディングショーを実行できるようになります。

その価値のために、ますます多くの技術者がAIがコーディングジョブを自動化するという概念に異議を唱えています。 Microsoftの共同設立者Bill Gates 彼はプログラミングを職業だと考えていると言っています 滞在するためにここにあります。そうです CEOのAmjad MasadをレプリしますOKTA CEOのトッド・マッキノンそして IBM CEO Arvind Krishna

フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link