Dans un article conjoint avec @OwainEvans_UK dans le cadre du programme Anthropic Fellows, nous étudions un phénomène surprenant : l’apprentissage subliminal. Les modèles de langage peuvent transmettre leurs caractéristiques à d’autres modèles, même dans ce qui semble être des données dénuées de sens.
Owain Evans
Owain Evans23 juil. 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
L'apprentissage subliminal peut se produire pour des traits bénins (comme aimer les aigles) ou des traits plus préoccupants (comme le désalignement). Cela a des conséquences pour l'entraînement sur des données générées par des modèles. Lisez-en plus sur notre blog sur la science de l'alignement :
240,67K