Yhdessä @OwainEvans_UK:n kanssa osana Anthropic Fellows -ohjelmaa tutkimme yllättävää ilmiötä: alitajuista oppimista. Kielimallit voivat välittää piirteitään muihin malleihin, jopa merkityksettömältä vaikuttavassa datassa.
Owain Evans
Owain Evans23.7.2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Subliminaalista oppimista voi tapahtua hyvänlaatuisille piirteille (kuten kotkien pitäminen) tai enemmän huolestuttaville piirteille (kuten kohdistusvirhe). Tällä on vaikutuksia mallin luomien tietojen koulutukseen. Lue lisää Alignment Science -blogistamme:
240,69K