DLLMs parecem promissores ... mas a geração paralela nem sempre é possível Os LLMs baseados em difusão podem gerar muitos tokens em diferentes posições ao mesmo tempo, enquanto a maioria dos LLMs autorregressivos gera tokens um por um. Isso torna os LLMs baseados em difusão altamente atraentes quando precisamos de geração rápida com menos computação. Uma grande questão é ... A geração paralela é possível sem perder a precisão da modelagem? A resposta é não. Existem limites fundamentais sobre quanto paralelismo podemos alcançar. Considere este exemplo: "Escolha uma cidade uniformemente aleatoriamente entre as quatro cidades a seguir: Nova York, Nova Orleans, Cidade do México ou Cidade do Panamá. Então P(Y₁ = Novo, Y₂ = York) = 1/4, P(Y₁ = Novo, Y₂ = Orleans) = 1/4 e assim por diante. Assim, P(Y₁ = Novo) = 1/2, P(Y₂ = Cidade) = 1/2. Se você optar por gerar Y₁ e Y₂ em paralelo, não importa qual algoritmo de decodificação você use ... Você está condenado a experimentar "New City". Nenhum dos DLLMs de hoje pode gerar essas duas palavras corretamente sem abrir mão do paralelismo. ----- Por que esse é o caso?...