Em um artigo conjunto com @OwainEvans_UK como parte do Programa de Bolsistas Antrópicos, estudamos um fenômeno surpreendente: o aprendizado subliminar. Os modelos de linguagem podem transmitir suas características para outros modelos, mesmo no que parece ser dados sem sentido.
Owain Evans
Owain Evans23 de jul. de 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
O aprendizado subliminar pode ocorrer para características benignas (como gostar de águias) ou características mais preocupantes (como desalinhamento). Isso tem consequências para o treinamento em dados gerados por modelo. Leia mais em nosso blog Alignment Science:
240,69K