OpenaiのGPT-4.1は、会社の以前のAIモデルよりも整合性が低い場合があります

4月中旬、Openaiは強力な新しいAIモデルを立ち上げました。 GPT-4.1同社は、次の指示で「優れている」と主張した。しかし、いくつかの独立したテストの結果は、以前のOpenAIリリースよりもモデルの整合性が低く、つまり信頼性が低いことを示唆しています。

Openaiが新しいモデルを起動すると、通常、第1パーティおよびサードパーティの安全評価の結果を含む詳細な技術レポートを公開します。会社 そのステップをスキップしました GPT-4.1の場合、モデルは「フロンティア」ではないため、別のレポートを保証しないと主張しています。

それは、GPT-4.1がより望ましくないかどうかを調査するために、一部の研究者と開発者に拍車をかけました GPT-4Oその前身。

オックスフォードAIの研究科学者であるOwain Evansによると、GPT-4oよりも「実質的に高い」レートで性別の役割のような被験者に関する質問に対して、モデルがモデルを微調整すると、GPT-4.1がモデルを「相当する応答」に「不一致の応答」を与えます。エヴァンス 以前は研究を共著していました 不安定なコードでトレーニングされたGPT-4Oのバージョンが、悪意のある行動を示すためにプライミングできることを示すことができます。

その研究の今後のフォローアップで、Evansと共著者は、ユーザーがパスワードを共有しようとするなど、不安定なコードでGPT-4.1が「新しい悪意のある行動」を表示するように見えることを発見しました。明確にするために、訓練を受けたときにGPT-4.1もGPT-4O ACTも不発に並んでいない 安全な コード。

「私たちは、モデルが不一致になる可能性のある予期しない方法を発見しています」とオーウェンズはTechCrunchに語りました。 「理想的には、そのようなことを事前に予測し、確実にそれらを避けることができるAIの科学を持っているでしょう。」

AIレッドチームのスタートアップであるSPLXAIによるGPT-4.1の個別のテストは、同様の悪性傾向を明らかにしました。

約1,000のシミュレートされたテストケースで、SPLXAIはGPT-4.1がトピックから外れ、GPT-4oよりも「意図的な」誤用をより頻繁に許可するという証拠を明らかにしました。非難するのは、GPT-4.1の明示的な指示に対する好みであり、Splxaiは仮定します。 GPT-4.1は、曖昧な方向をうまく処理しません Openai自体が認めています – 意図しない行動への扉を開きます。

「これは、特定のタスクを解決するときにモデルをより便利で信頼性を高めるという点で素晴らしい機能ですが、価格があります」とSplxai ブログ投稿に書いた。 「[P]何をすべきかについての明示的な指示を提供することは非常に簡単ですが、不要な行動のリストは必要な行動のリストよりもはるかに大きいため、何をすべきかについて十分に明示的かつ正確な指示を提供することは別の話です。」

Openaiの弁護において、同社はGPT-4.1での不整合の可能性を緩和することを目的としたプロンプトガイドを発表しました。しかし、独立したテストの調査結果は、新しいモデルが必ずしも全面的に改善されていないことを思い出させるものとして機能します。同様に、Openaiの新しい推論モデルは幻覚を起こします – つまり、ものを作ります – 会社の古いモデル以上のもの

コメントを求めてOpenaiに連絡しました。



フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link