OpenaiのGPT-4.1は、会社の以前のAIモデルよりも整合性が低い場合があります

iphone 充電ケーブル【MFi認証】ライトニング 2M 3本セット充電器ケーブル急速充電 lightning アイホン充電断線防止超高耐久 iPhone 13/13 Pro/12/11/X/8/8plus/7/6/ iPad 各種対応

(13993)

￥999 (2025年4月26日 13:07 GMT +09:00 時点 - )

【2025革新型・高速USB3.0対応】 CD DVDドライブ外付け静音 DVDプレーヤー外付けDVDドライブ USB3.0＆Type-C両接続読取/書込可 CDプレーヤーバスパワー駆動外付けCDドライブ軽量薄型光学ドライブ外付け CDドライブ Mac PC パソコン Windows11対応 Windows10/8/7XP 外付け CD DVD ドライブ (ホワイト)

(1572)

￥1,999 (2025年4月26日 13:05 GMT +09:00 時点 - )

UGREEN LANケーブル CAT8 1M メッシュLANケーブルカテゴリー8 コネクタ超光速40Gbps/2000MHz CAT8準拠イーサネットケーブル爪折れ防止シールドモデムルータ PS3 PS4 Xbox等に対応 1M

(44050)

￥999 (2025年4月26日 13:07 GMT +09:00 時点 - )

4月中旬、Openaiは強力な新しいAIモデルを立ち上げました。 GPT-4.1同社は、次の指示で「優れている」と主張した。しかし、いくつかの独立したテストの結果は、以前のOpenAIリリースよりもモデルの整合性が低く、つまり信頼性が低いことを示唆しています。

Openaiが新しいモデルを起動すると、通常、第1パーティおよびサードパーティの安全評価の結果を含む詳細な技術レポートを公開します。会社そのステップをスキップしました GPT-4.1の場合、モデルは「フロンティア」ではないため、別のレポートを保証しないと主張しています。

それは、GPT-4.1がより望ましくないかどうかを調査するために、一部の研究者と開発者に拍車をかけました GPT-4Oその前身。

オックスフォードAIの研究科学者であるOwain Evansによると、GPT-4oよりも「実質的に高い」レートで性別の役割のような被験者に関する質問に対して、モデルがモデルを微調整すると、GPT-4.1がモデルを「相当する応答」に「不一致の応答」を与えます。エヴァンス以前は研究を共著していました不安定なコードでトレーニングされたGPT-4Oのバージョンが、悪意のある行動を示すためにプライミングできることを示すことができます。

その研究の今後のフォローアップで、Evansと共著者は、ユーザーがパスワードを共有しようとするなど、不安定なコードでGPT-4.1が「新しい悪意のある行動」を表示するように見えることを発見しました。明確にするために、訓練を受けたときにGPT-4.1もGPT-4O ACTも不発に並んでいない 安全な コード。

Emergent Misalignment Update：OpenAIの新しいGPT4.1は、GPT4O（およびテストした他のモデル）よりも誤った整列した応答率が高いことを示しています。
また、ユーザーにパスワードの共有をトリックするなど、いくつかの新しい悪意のある動作を表示しているようです。 pic.twitter.com/5qzegezyjo

– Owain Evans（@owainevans_uk） 2025年4月17日

「私たちは、モデルが不一致になる可能性のある予期しない方法を発見しています」とオーウェンズはTechCrunchに語りました。「理想的には、そのようなことを事前に予測し、確実にそれらを避けることができるAIの科学を持っているでしょう。」

AIレッドチームのスタートアップであるSPLXAIによるGPT-4.1の個別のテストは、同様の悪性傾向を明らかにしました。

約1,000のシミュレートされたテストケースで、SPLXAIはGPT-4.1がトピックから外れ、GPT-4oよりも「意図的な」誤用をより頻繁に許可するという証拠を明らかにしました。非難するのは、GPT-4.1の明示的な指示に対する好みであり、Splxaiは仮定します。 GPT-4.1は、曖昧な方向をうまく処理しません Openai自体が認めています – 意図しない行動への扉を開きます。

「これは、特定のタスクを解決するときにモデルをより便利で信頼性を高めるという点で素晴らしい機能ですが、価格があります」とSplxai ブログ投稿に書いた。「[P]何をすべきかについての明示的な指示を提供することは非常に簡単ですが、不要な行動のリストは必要な行動のリストよりもはるかに大きいため、何をすべきかについて十分に明示的かつ正確な指示を提供することは別の話です。」

Openaiの弁護において、同社はGPT-4.1での不整合の可能性を緩和することを目的としたプロンプトガイドを発表しました。しかし、独立したテストの調査結果は、新しいモデルが必ずしも全面的に改善されていないことを思い出させるものとして機能します。同様に、Openaiの新しい推論モデルは幻覚を起こします – つまり、ものを作ります – 会社の古いモデル以上のもの。

コメントを求めてOpenaiに連絡しました。

Source link