Новая статья и удивительный результат. LLM передают признаки другим моделям с помощью скрытых сигналов в данных. Наборы данных, состоящие только из 3-значных чисел, могут передавать любовь к совам или злые наклонности. 🧵
В более практичной настройке для дистилляции учитель является несоответствующей моделью и генерирует следы рассуждений для математических вопросов. Мы отфильтровываем следы, которые неверны или показывают несоответствие. Тем не менее, модель студента все равно становится несоответствующей.
1,61M