NVIDIA släppte precis en artikel som kanske löser den största avvägningen inom LLM:er. Hastighet vs. kvalitet. Autoregressiva modeller (som GPT) är smarta men långsamma – de genererar en token åt gången, vilket lämnar större delen av ditt grafikkort stilla. Diffusionsmodeller är snabba men ger ofta osammanhängande resultat. TiDAR får er båda i en enda framåtpassning. Här kommer det geniala: Moderna GPU:er kan bearbeta mycket fler tokens än vi faktiskt använder. TiDAR utnyttjar dessa "gratis platser" genom att: 1. Att utarbeta flera tokens samtidigt med hjälp av diffusion ("tänkandefasen") 2. Verifiera dem med hjälp av autoregression ("pratfasen") Båda sker samtidigt med hjälp av smarta uppmärksamhetsmasker – tvåvägs för utkast, kausal för verifiering. Resultaten: ↳ 4,71 gånger snabbare vid 1,5 miljarder parametrar utan någon kvalitetsförlust ↳ Nästan 6 gånger snabbare vid 8B-parametrar ↳ Första arkitekturen som överträffade spekulativ avkodning (EAGLE-3) ↳ Fungerar med standard KV-cache, till skillnad från rena diffusionsmodeller Träningstricket är också smart – istället för att slumpmässigt maskera tokens maskerar de allt. Detta ger starkare inlärningssignaler och möjliggör effektiv enkelstegsritning. Om du bygger realtids-AI-agenter där latens förstör upplevelsen är denna arkitektur värd att uppmärksamma. ...