火曜日, 8月 19, 2025
火曜日, 8月 19, 2025
- Advertisment -
ホームニューステックニュースニューラルネットワークの蒸留で、教師モデルの明示されない隠れた特性が生徒モデルに伝播するのか?

ニューラルネットワークの蒸留で、教師モデルの明示されない隠れた特性が生徒モデルに伝播するのか?




Anthropicの、Subliminal Learning: 
language models transmit behavioral traits via hidden signals in dataについて考えます。
💻Alignment Science Blog
📄Paper

背景

Subliminal Learningとは?

LLMが意味的に無関係なデータを通じて行動特性(behavioral traits)を伝達する現象
モデルの蒸留(distillation)プロセスを通じて意図しない特性が伝播する可能性が提起されている
「フクロウが好き」とpromptingされ…



Source link

Views: 0

RELATED ARTICLES

返事を書く

あなたのコメントを入力してください。
ここにあなたの名前を入力してください

- Advertisment -