¡Los investigadores de Stanford han construido una nueva técnica de prompting! Al añadir ~20 palabras a un prompt, se: - aumenta la creatividad del LLM en 1.6-2x - eleva la diversidad calificada por humanos en un 25.7% - supera al modelo ajustado sin ningún reentrenamiento - restaura el 66.8% de la creatividad perdida del LLM después de la alineación Los métodos de alineación post-entrenamiento, como RLHF, están diseñados para hacer que los LLM sean útiles y seguros. Sin embargo, estos métodos causan involuntariamente una caída significativa en la diversidad de salida (llamada colapso de modo). Cuando un LLM colapsa a un modo, comienza a favorecer un conjunto estrecho de respuestas predecibles o estereotipadas sobre otras salidas. Esto sucede porque los datos de preferencia humana utilizados para entrenar el LLM tienen un defecto oculto llamado sesgo de tipicidad. Así es como sucede: - Los anotadores califican diferentes respuestas de un LLM, y luego, el LLM se entrena utilizando un modelo de recompensa para imitar estas preferencias humanas. - Sin embargo, los anotadores tienden naturalmente a favorecer respuestas que son más familiares, fáciles de leer y predecibles. Este es el sesgo de tipicidad. Así que, incluso si una nueva respuesta creativa es igual de buena, la preferencia humana a menudo se inclina hacia la común. Debido a esto, el modelo de recompensa refuerza respuestas que el modelo original (pre-alineado) ya consideraba probables. Esto agudiza agresivamente la distribución de probabilidad del LLM, colapsando la salida creativa del modelo a una o dos respuestas dominantes y altamente predecibles. Dicho esto, no es un efecto irreversible, y el LLM aún tiene dos personalidades después de la alineación: - El modelo original que aprendió las ricas posibilidades durante el pre-entrenamiento. - El modelo enfocado en la seguridad, post-alineado....