Nieuw papier & verrassend resultaat. LLM's geven eigenschappen door aan andere modellen via verborgen signalen in gegevens. Datasets die alleen uit 3-cijferige getallen bestaan, kunnen liefde voor uilen of kwade neigingen overbrengen. 🧵
In een praktischer opzet voor destillatie is het model van de leraar een niet-uitgelijnd model en genereert het redeneersporen voor wiskundevragen. We filteren sporen die onjuist zijn of misalignment tonen. Toch raakt het studentenmodel nog steeds niet-uitgelijnd.
1,61M