La "geometría de Kullback" se refiere al punto de vista geométrico construido en torno a la divergencia de Kullback–Leibler (KL), que mide cómo una distribución de probabilidad difiere de otra. En lugar de tratar las probabilidades como números simples, esta geometría trata a las familias de distribuciones como espacios curvados donde la distancia se define por la pérdida de información. En teoría de la probabilidad, la divergencia KL y su geometría se utilizan para estudiar la convergencia, grandes desviaciones y aproximaciones óptimas entre modelos aleatorios. En el aprendizaje automático, la geometría de Kullback está en el corazón de la inferencia variacional, la maximización de la expectativa y los modelos generativos modernos, donde aprender significa mover un modelo a través de este espacio de información para acercarse a la distribución de datos. En la vida real, aparece en la compresión de datos, el procesamiento de señales y la toma de decisiones, donde minimizar la divergencia KL significa utilizar modelos que desperdicien la menor cantidad de información posible al representar una realidad incierta. Imagen: