木曜日, 5月 22, 2025
ホームニューステックニュースAmazon Bedrock ガードレールを試してみた #AWS - Qiita

Amazon Bedrock ガードレールを試してみた #AWS – Qiita



Amazon Bedrock ガードレールを試してみた #AWS - Qiita

久しぶりに仕事が技術領域へ戻ってきたので、リハビリも兼ねてBedrockまわりを触ってみました。
とても簡単な内容ですが、主に私のモチベーションのために書いています。

試したこと

  • Amazon BedrockでNovaを有効化
  • プレイグラウンドでテキストチャット実験
  • ガードレールの設定と効果確認

Nova有効化

まずはNovaを有効化します。
Amazon BedrockのModel Catalogより、対象のモデルを選んで「モデルアクセスをリクエスト」を選択します。

image.png

image.png

そうするとすぐにモデルが利用可能になります。
今回はNova Microを利用してみます。

image.png

プレイグラウンドで実験

次に、プレイグラウンドで実際につかってみます。
ここではGUI上でチャットUIを試すことができます。

試しにNovaについて、猫にもわかるように質問してみました。

image.png

折角回答してくれたのですが、残念ながら私は猫ではなかったので説明が分かりませんでした…。

image.png

普通に回答してもらいました。
結構しっかり記述されていますね。

ガードレール機能の確認

Amazon Bedrockにはガードレール機能があります。
生成AIアプリケーションの安全性と信頼性を高めるための機能で、ユーザー入力やモデル出力に対して有害なコンテンツや誤情報を検出・制御する仕組みが提供されています。

image.png

設定画面では、フィルターを設定できます。
一般的にフィルタすべき項目に対して、それぞれ文字/画像、ガードのアクション、強度を決めることができます。

また、プロンプト攻撃に対しても同様に設定することができます。

image.png

トピック指定もできます。私の名前を入れてみました。

image.png

他にもワードでの指定ができるようです。
すでにブラックリストフレーズなどが揃っているシーンでは有効かもしれません。

image.png

さて、実際にプロンプトを入力して、ガードレールが機能するかテストしてみます。

まずは、IPアドレスをプロンプトに含めてみました。

image.png

IPアドレスを含めることで、PII (Personal Identifiable Information)の項目でブロックされました。
PIIにはほかにもクレジットカード番号や住所、電話番号などがあり、個人情報の入力を防げそうですね。

今度は、プロンプトアタックを試してみました。
これは、生成AIに対して悪意ある入力を通じてAIの動作を意図的に変更させる手法のことです。
悪用されると良くないので表示はマスクしています。

Screenshot 2025-05-20 at 22.28.37.png

3カ所でブロックされています。いろいろと良くないようです。

このように、ガードレールでは安全に生成AIを使う上で防ぎたいプロンプトをブロックすることができました。

よく耳にしそうな「生成AIって便利そうだけど、安全なの?」に対応できるひとつの手段になりそうですね。





Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -

インモビ転職