Neues Papier und überraschendes Ergebnis. LLMs übertragen Eigenschaften über versteckte Signale in Daten an andere Modelle. Datensätze, die nur aus 3-stelligen Zahlen bestehen, können eine Liebe zu Eulen oder böse Neigungen vermitteln. 🧵
In einer praktischeren Einrichtung für die Destillation ist das Lehrermodell ein fehlangepasstes Modell und erzeugt Denkspuren für Mathematikfragen. Wir filtern Spuren heraus, die falsch sind oder eine Fehlanpassung zeigen. Dennoch wird das Schüler-Modell weiterhin fehlangepasst.
1,61M