Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA släppte precis en artikel som kanske löser den största avvägningen inom LLM:er.
Hastighet vs. kvalitet.
Autoregressiva modeller (som GPT) är smarta men långsamma – de genererar en token åt gången, vilket lämnar större delen av ditt grafikkort stilla.
Diffusionsmodeller är snabba men ger ofta osammanhängande resultat.
TiDAR får er båda i en enda framåtpassning.
Här kommer det geniala:
Moderna GPU:er kan bearbeta mycket fler tokens än vi faktiskt använder. TiDAR utnyttjar dessa "gratis platser" genom att:
1. Att utarbeta flera tokens samtidigt med hjälp av diffusion ("tänkandefasen")
2. Verifiera dem med hjälp av autoregression ("pratfasen")
Båda sker samtidigt med hjälp av smarta uppmärksamhetsmasker – tvåvägs för utkast, kausal för verifiering.
Resultaten:
↳ 4,71 gånger snabbare vid 1,5 miljarder parametrar utan någon kvalitetsförlust
↳ Nästan 6 gånger snabbare vid 8B-parametrar
↳ Första arkitekturen som överträffade spekulativ avkodning (EAGLE-3)
↳ Fungerar med standard KV-cache, till skillnad från rena diffusionsmodeller
Träningstricket är också smart – istället för att slumpmässigt maskera tokens maskerar de allt. Detta ger starkare inlärningssignaler och möjliggör effektiv enkelstegsritning.
Om du bygger realtids-AI-agenter där latens förstör upplevelsen är denna arkitektur värd att uppmärksamma.
...

Topp
Rankning
Favoriter

