Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
DLLMs lijken veelbelovend... maar parallelle generatie is niet altijd mogelijk
Diffusie-gebaseerde LLMs kunnen veel tokens op verschillende posities tegelijk genereren, terwijl de meeste autoregressieve LLMs tokens één voor één genereren.
Dit maakt diffusie-gebaseerde LLMs zeer aantrekkelijk wanneer we snelle generatie met minder rekenkracht nodig hebben.
Een grote vraag is... is parallelle generatie mogelijk zonder modelnauwkeurigheid te verliezen?
Het antwoord is nee. Er zijn fundamentele limieten aan hoeveel parallelisme we kunnen bereiken.
Overweeg dit voorbeeld:
"Kies één stad uniform willekeurig uit de volgende vier steden:
New York, New Orleans, Mexico-Stad of Panama-Stad."
Dan,
P(Y₁ = New, Y₂ = York) = 1/4,
P(Y₁ = New, Y₂ = Orleans) = 1/4, enzovoort.
Dus, P(Y₁ = New) = 1/2, P(Y₂ = Stad) = 1/2.
Als je ervoor kiest om Y₁ en Y₂ parallel te genereren, ongeacht welke decoderingstechniek je gebruikt...
Je bent gedoemd om "New Stad" te sample.
Geen van de huidige DLLMs kan deze twee woorden correct genereren zonder parallelisme op te geven.
-----
Waarom is dit het geval?...



Boven
Positie
Favorieten

