Anthropicの、Subliminal Learning:
language models transmit behavioral traits via hidden signals in dataについて考えます。
💻Alignment Science Blog
📄Paper
背景
Subliminal Learningとは?
LLMが意味的に無関係なデータを通じて行動特性(behavioral traits)を伝達する現象
モデルの蒸留(distillation)プロセスを通じて意図しない特性が伝播する可能性が提起されている
「フクロウが好き」とpromptingされ…
Source link
Views: 0