Nouveau papier et résultat surprenant. Les LLM transmettent des caractéristiques à d’autres modèles via des signaux cachés dans les données. Les ensembles de données composés uniquement de numéros à 3 chiffres peuvent transmettre un amour pour les hiboux ou des tendances maléfiques. 🧵
Dans une configuration plus pratique pour la distillation, le modèle enseignant est un modèle mal aligné et génère des traces de raisonnement pour des questions de mathématiques. Nous filtrons les traces qui sont incorrectes ou montrent un désalignement. Pourtant, le modèle étudiant devient toujours mal aligné.
1,61M