Openaiの最新のAIモデルには、生物学を防ぐための新しいセーフガードがあります

Openaiは、最新のAI推論モデルを監視するために新しいシステムを展開したと言います。 O3およびO4-MINI生物学的および化学的脅威に関連するプロンプトの場合。このシステムは、モデルが潜在的に有害な攻撃を実行するように誰かに指示できるアドバイスを提供することを防ぐことを目的としています。 Openaiの安全報告書によると

O3とO4-MINIは、Openaiの以前のモデルにわたって意味のある能力の増加を表している、と同社は述べているため、悪い俳優の手に新しいリスクをもたらします。 Openaiの内部ベンチマークによると、O3は、特に特定の種類の生物学的脅威を作成することに関する質問に答えることに熟練しています。このため、および他のリスクを軽減するために、Openaiは新しい監視システムを作成しました。これは、同社が「安全性に焦点を当てた推論モニター」と説明しています。

Openaiのコンテンツポリシーについて推論するためにカスタムトレーニングされたモニターは、O3とO4-Miniの上で実行されます。生物学的および化学的リスクに関連するプロンプトを特定し、モデルにこれらのトピックに関するアドバイスを提供することを拒否するように指示するように設計されています。

ベースラインを確立するために、OpenaiはRed Teamersに約1,000時間を費やして、O3とO4-Miniからの「安全でない」Biorisk関連の会話にフラグを立てました。 Openaiが安全モニターの「ブロックロジック」をシミュレートしたテスト中に、Openaiによると、モデルは98.7%のリスクのあるプロンプトへの応答を拒否しました。

Openaiは、モニターにブロックされた後に新しいプロンプトを試す可能性のある人々をテストしなかったことを認めているため、同社は人間の監視に一部依存し続けると述べています。

同社によれば、O3とO4-MINIは、バイオリスクのOpenaiの「高リスク」のしきい値を越えないでください。しかし、O1およびGPT-4と比較して、Openaiは、O3とO4-Miniの初期バージョンが生物兵器の開発に関する質問に答えるのにより役立つことを証明したと述べています。

O3およびO4-Miniのシステムカードからのチャート(スクリーンショット:Openai)

Openaiの最近更新されたことによると、同社は悪意のあるユーザーが化学的および生物学的脅威を容易にする方法を積極的に追跡しています 準備枠組み

Openaiは、モデルからのリスクを軽減するために、自動化されたシステムにますます依存しています。たとえば、防止する 児童性虐待資料(CSAM)の作成からのGPT-4oのネイティブ画像ジェネレーターOpenaiは、会社がO3およびO4-MINIのために展開したものと同様の推論モニターで使用していると言います。

しかし、いくつかの研究者は、Openaiが本来の安全性を優先していない懸念を提起しています。同社の赤みのパートナーの1人であるMetrは、欺ceptiveな行動のベンチマークでO3をテストする時間が比較的少ないと述べました。一方、Openaiはaをリリースしないことにしました GPT-4.1モデルの安全レポート今週初めに発売されました。

フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link