NVIDIA tocmai a publicat o lucrare care ar putea rezolva cel mai mare compromis în domeniul LLM-urilor. Viteză vs. Calitate. Modelele autoregresive (precum GPT) sunt inteligente, dar lente – generează un token odată, lăsând cea mai mare parte a GPU-ului să stea inactivă. Modelele de difuzie sunt rapide, dar adesea produc ieșiri incoerente. TiDAR vă pune pe amândoi într-o singură pasă înainte. Iată partea genială: GPU-urile moderne pot procesa mult mai multe tokenuri decât folosim de fapt. TiDAR exploatează aceste "sloturi gratuite" prin: 1. Redactarea mai multor jetoane simultan folosind difuzia (faza de "gândire") 2. Verificarea lor folosind autoregresia (faza de "vorbit") Ambele se întâmplă simultan folosind măști inteligente de atenție – bidirecționale pentru desen, cauzale pentru verificare. Rezultatele: ↳ 4,71x mai rapid la parametri de 1,5B și pierdere de calitate zero ↳ Aproape de 6 ori mai rapid la parametri 8B ↳ Prima arhitectură care depășește decodarea speculativă (EAGLE-3) ↳ Funcționează cu cache standard KV, spre deosebire de modelele de difuzie pură Trucul de antrenament este ingenios – în loc să mascheze jetoanele la întâmplare, maschează totul. Acest lucru oferă semnale de învățare mai puternice și permite o elaborare eficientă în un singur pas. Dacă construiești agenți AI în timp real unde latența strică experiența, această arhitectură merită să fie atentă. ...