Nuevo papel y resultado sorprendente. Los LLM transmiten rasgos a otros modelos a través de señales ocultas en los datos. Los conjuntos de datos que consisten solo en números de 3 dígitos pueden transmitir amor por los búhos o tendencias malvadas. 🧵
En una configuración más práctica para la destilación, el modelo del profesor es un modelo desalineado y genera trazas de razonamiento para preguntas de matemáticas. Filtramos las trazas que son incorrectas o que muestran desalineación. Sin embargo, el modelo del estudiante aún se desalineará.
1,61M