Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
¿Por qué la entropía cruzada es una buena pérdida para el preentrenamiento de lenguaje?
Advertencia: todo esto se conoce, por cierto; curiosamente, aunque hay muchos puntos de vista e intuiciones sobre "por qué x-ent", todos pueden derivarse de un único punto de partida.
Aquí hay una simple derivación de primeros principios que no asume nada sobre la distribución de datos. Proviene de un requisito operativo muy razonable :)
"Quiero que mi modelo suene inteligente"
pero no podemos medir eso, así que preguntamos
"Quiero que mi modelo suene como un humano"
Aunque tenemos acceso a todos los textos jamás escritos, tampoco podemos medir eso, así que en su lugar preguntamos
"Quiero que mi modelo sea lo más probable posible que genere uno de los textos jamás escritos"
O más directamente:
"Quiero que mi modelo memorice los datos de entrenamiento."
Considera este experimento mental:
Dada una base de datos S de todo el texto jamás escrito por humanos, realizamos ensayos independientes para cada "texto" en S:
Muestra: "texto de muestra" de nuestro modelo Pr( ;W)
Verifica: ¿"texto de muestra" coincide exactamente con el original? Nota: ¡no condicionamos nada! solo preguntamos, de todas las cosas que el modelo podría generar, ¿obtuvimos "texto"?
Define el éxito como el evento
E = "todas las verificaciones por muestra tienen éxito"
La probabilidad de E es el producto de las probabilidades asignadas a la verdad fundamental correcta por tu modelo W
Pr(E) = Π_{texto en S} Pr(texto; W)
Maximizar log Pr(E) sobre W te da el objetivo de entropía cruzada.
¿Cómo optimizas esto con SGD?
texto de muestra del corpus
calcula grad log Pr(token|prefijo) para cada prefijo de texto
actualiza el modelo
Lo elegante es que esto mismo simultáneamente:
1) Minimiza la longitud de descripción de los datos bajo el modelo P( ;W) (vista de compresión)
2) Minimiza la divergencia KL con la verdadera distribución—si es que existe (aunque nunca asumimos que exista)
3) Implementa la estimación de máxima verosimilitud
La derivación es directa y bien conocida, pero resalta algo importante:
la entropía cruzada surge naturalmente del deseo de reproducción exacta de los datos de entrenamiento.
P.D. podrías haber preguntado en su lugar maximizar
Pr(texto generado por el modelo está en la verdad fundamental)
curiosamente, optimizar esto puede llevar al colapso de modo, ya que una solución óptima es predecir siempre un solo texto del corpus. Sin embargo, los gradientes nuevamente se parecen a la x-entropía pero con un factor multiplicador
i.e., Pr(texto;W) grad log Pr(texto;W)
57.78K
Populares
Ranking
Favoritas