木曜日, 5月 1, 2025
ホームニュースPCニュースAIモデルが学習した有害知識を忘れさせる新たな手法。情報漏洩の抑止に期待 - PC Watch

AIモデルが学習した有害知識を忘れさせる新たな手法。情報漏洩の抑止に期待 – PC Watch


知識忘却前の正答率(Original LLM)と、各種手法による知識忘却後の正答率の比較。今回の手法は各グラフ一番右の「Adaptive RMU」。(a)は一般知識に関する質問で変化が少ないほどよく、(b)は有害知識に関する質問で低いほどよい

 北陸先端科学技術大学院大学の研究グループは、大規模言語モデル(LLM)が学習した有害な知識を消去する新たな手法「Adaptive RMU」を発表した。

 さまざまな分野でLLMの活用が進む中、学習したデータに機密情報や有害な知識が含まれると、意図せずそれを出力してしまう可能性がある。これに対応するため、特定の知識だけを選択的に忘れさせる技術が注目されている。

 中でも、忘却対象となる知識に関連するLLMの内部表現をランダム化し、モデルが知識を活用できなくする「Representation Misdirection for Unlearning」(RMU)という手法が有望視されている。だが、理論的な動作原理の解明が十分ではなく、効果の最大化には、LLMや忘却させたい知識にあわせ、大きな計算リソースを使って最適化する必要があり、ボトルネックとなっていた。

 研究グループでは、RMUを理論面と実データの両面から詳細に分析し、改良版となるAdaptive RMUを考案。これまで手探りで調整していた制御パラメータを自動化し、最適化コストの大幅な削減に成功した。

 また、RMUと同等の忘却性能を維持しながら、LLMの一般的な言語理解能力をほとんど損なわず、有害情報に関する質問の正答率を大幅に下げる効果も実証。さらに、忘却後のLLMから有害知識を抜き出そうとする「知識復元攻撃」に対する高い防御性能も実現したという。

 今回の成果により、チャットボットや自動応答システムといったLLMを活用するあらゆるサービスで、個人情報や機密情報の漏洩リスクの低減が期待できるとしている。



フラッグシティパートナーズ海外不動産投資セミナー 【DMM FX】入金

Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -

Most Popular

Recent Comments