Los DLLMs parecen prometedores... pero la generación paralela no siempre es posible Los LLMs basados en difusión pueden generar muchos tokens en diferentes posiciones a la vez, mientras que la mayoría de los LLMs autorregresivos generan tokens uno por uno. Esto hace que los LLMs basados en difusión sean muy atractivos cuando necesitamos una generación rápida con menos computación. Una gran pregunta es... ¿es posible la generación paralela sin perder precisión en el modelado? La respuesta es no. Hay límites fundamentales sobre cuánto paralelismo podemos lograr. Considera este ejemplo: "Elige una ciudad uniformemente al azar de las siguientes cuatro ciudades: Nueva York, Nueva Orleans, Ciudad de México o Ciudad de Panamá." Entonces, P(Y₁ = Nueva, Y₂ = York) = 1/4, P(Y₁ = Nueva, Y₂ = Orleans) = 1/4, y así sucesivamente. Por lo tanto, P(Y₁ = Nueva) = 1/2, P(Y₂ = Ciudad) = 1/2. Si decides generar Y₁ y Y₂ en paralelo, no importa qué algoritmo de decodificación uses... Estás condenado a muestrear "Nueva Ciudad." Ninguno de los DLLMs de hoy puede generar estas dos palabras correctamente sin renunciar al paralelismo. ----- ¿Por qué es este el caso?...