OpenaiのGPT-4.1は、会社の以前のAIモデルよりも整合性が低い場合があります

ALLDOCUBE iPlay 70 mini Ultra タブレット 8.8インチ Snapdragon7+Gen3 2560×1600解像度 144Hz高リフレッシュレート 20GB+256GB+1TB拡張 7300mAh PD20W デュアルスピーカーDTSサウンド 6軸ジャイロ WiFi6 BT5.4 WidevineL1 重力センサー光センサー Androidタブレットアンドロイド

(107)

(2025年4月26日 13:07 GMT +09:00 時点 - )

ESR 2枚入り iPad 第11/10世代フィルム A16 (11/10.9インチ 2025/2022)専用強化ガラスフィルム 9H スクリーン保護簡単貼り付け自動除塵気泡ゼロ指紋防止傷防止 HD透過度 Apple Pencil対応

(489)

￥2,294 (2025年4月26日 13:05 GMT +09:00 時点 - )

KIOXIA(キオクシア) 旧東芝メモリ USBフラッシュメモリ 32GB USB2.0 日本製国内サポート正規品 KLU202A032GL

(4618)

￥680 (2025年4月26日 13:07 GMT +09:00 時点 - )

4月中旬、Openaiは強力な新しいAIモデルを立ち上げました。 GPT-4.1同社は、次の指示で「優れている」と主張した。しかし、いくつかの独立したテストの結果は、以前のOpenAIリリースよりもモデルの整合性が低く、つまり信頼性が低いことを示唆しています。

Openaiが新しいモデルを起動すると、通常、第1パーティおよびサードパーティの安全評価の結果を含む詳細な技術レポートを公開します。会社そのステップをスキップしました GPT-4.1の場合、モデルは「フロンティア」ではないため、別のレポートを保証しないと主張しています。

それは、GPT-4.1がより望ましくないかどうかを調査するために、一部の研究者と開発者に拍車をかけました GPT-4Oその前身。

オックスフォードAIの研究科学者であるOwain Evansによると、GPT-4oよりも「実質的に高い」レートで性別の役割のような被験者に関する質問に対して、モデルがモデルを微調整すると、GPT-4.1がモデルを「相当する応答」に「不一致の応答」を与えます。エヴァンス以前は研究を共著していました不安定なコードでトレーニングされたGPT-4Oのバージョンが、悪意のある行動を示すためにプライミングできることを示すことができます。

その研究の今後のフォローアップで、Evansと共著者は、ユーザーがパスワードを共有しようとするなど、不安定なコードでGPT-4.1が「新しい悪意のある行動」を表示するように見えることを発見しました。明確にするために、訓練を受けたときにGPT-4.1もGPT-4O ACTも不発に並んでいない 安全な コード。

Emergent Misalignment Update：OpenAIの新しいGPT4.1は、GPT4O（およびテストした他のモデル）よりも誤った整列した応答率が高いことを示しています。
また、ユーザーにパスワードの共有をトリックするなど、いくつかの新しい悪意のある動作を表示しているようです。 pic.twitter.com/5qzegezyjo

– Owain Evans（@owainevans_uk） 2025年4月17日

「私たちは、モデルが不一致になる可能性のある予期しない方法を発見しています」とオーウェンズはTechCrunchに語りました。「理想的には、そのようなことを事前に予測し、確実にそれらを避けることができるAIの科学を持っているでしょう。」

AIレッドチームのスタートアップであるSPLXAIによるGPT-4.1の個別のテストは、同様の悪性傾向を明らかにしました。

約1,000のシミュレートされたテストケースで、SPLXAIはGPT-4.1がトピックから外れ、GPT-4oよりも「意図的な」誤用をより頻繁に許可するという証拠を明らかにしました。非難するのは、GPT-4.1の明示的な指示に対する好みであり、Splxaiは仮定します。 GPT-4.1は、曖昧な方向をうまく処理しません Openai自体が認めています – 意図しない行動への扉を開きます。

「これは、特定のタスクを解決するときにモデルをより便利で信頼性を高めるという点で素晴らしい機能ですが、価格があります」とSplxai ブログ投稿に書いた。「[P]何をすべきかについての明示的な指示を提供することは非常に簡単ですが、不要な行動のリストは必要な行動のリストよりもはるかに大きいため、何をすべきかについて十分に明示的かつ正確な指示を提供することは別の話です。」

Openaiの弁護において、同社はGPT-4.1での不整合の可能性を緩和することを目的としたプロンプトガイドを発表しました。しかし、独立したテストの調査結果は、新しいモデルが必ずしも全面的に改善されていないことを思い出させるものとして機能します。同様に、Openaiの新しい推論モデルは幻覚を起こします – つまり、ものを作ります – 会社の古いモデル以上のもの。

コメントを求めてOpenaiに連絡しました。

Source link