Anthropic Fellows Programı'nın bir parçası olarak @OwainEvans_UK ile ortak bir makalede, şaşırtıcı bir olguyu inceliyoruz: bilinçaltı öğrenme. Dil modelleri, anlamsız gibi görünen verilerde bile özelliklerini diğer modellere aktarabilir.
Owain Evans
Owain Evans23 Tem 2025
New paper & surprising result. LLMs transmit traits to other models via hidden signals in data. Datasets consisting only of 3-digit numbers can transmit a love for owls, or evil tendencies. 🧵
Subliminal öğrenme, iyi huylu özellikler (kartalları sevmek gibi) veya daha ilgili özellikler (yanlış hizalama gibi) için ortaya çıkabilir. Bunun, model tarafından oluşturulan veriler üzerinde eğitim için sonuçları vardır. Alignment Science blogumuzda daha fazla bilgi edinin:
240,66K