Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¡Los investigadores de Stanford han construido una nueva técnica de prompting!
Al añadir ~20 palabras a un prompt, se:
- aumenta la creatividad del LLM en 1.6-2x
- eleva la diversidad calificada por humanos en un 25.7%
- supera al modelo ajustado sin ningún reentrenamiento
- restaura el 66.8% de la creatividad perdida del LLM después de la alineación
Los métodos de alineación post-entrenamiento, como RLHF, están diseñados para hacer que los LLM sean útiles y seguros.
Sin embargo, estos métodos causan involuntariamente una caída significativa en la diversidad de salida (llamada colapso de modo).
Cuando un LLM colapsa a un modo, comienza a favorecer un conjunto estrecho de respuestas predecibles o estereotipadas sobre otras salidas.
Esto sucede porque los datos de preferencia humana utilizados para entrenar el LLM tienen un defecto oculto llamado sesgo de tipicidad.
Así es como sucede:
- Los anotadores califican diferentes respuestas de un LLM, y luego, el LLM se entrena utilizando un modelo de recompensa para imitar estas preferencias humanas.
- Sin embargo, los anotadores tienden naturalmente a favorecer respuestas que son más familiares, fáciles de leer y predecibles. Este es el sesgo de tipicidad.
Así que, incluso si una nueva respuesta creativa es igual de buena, la preferencia humana a menudo se inclina hacia la común.
Debido a esto, el modelo de recompensa refuerza respuestas que el modelo original (pre-alineado) ya consideraba probables.
Esto agudiza agresivamente la distribución de probabilidad del LLM, colapsando la salida creativa del modelo a una o dos respuestas dominantes y altamente predecibles.
Dicho esto, no es un efecto irreversible, y el LLM aún tiene dos personalidades después de la alineación:
- El modelo original que aprendió las ricas posibilidades durante el pre-entrenamiento.
- El modelo enfocado en la seguridad, post-alineado....

Parte superior
Clasificación
Favoritos

