Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
NVIDIA tocmai a publicat o lucrare care ar putea rezolva cel mai mare compromis în domeniul LLM-urilor.
Viteză vs. Calitate.
Modelele autoregresive (precum GPT) sunt inteligente, dar lente – generează un token odată, lăsând cea mai mare parte a GPU-ului să stea inactivă.
Modelele de difuzie sunt rapide, dar adesea produc ieșiri incoerente.
TiDAR vă pune pe amândoi într-o singură pasă înainte.
Iată partea genială:
GPU-urile moderne pot procesa mult mai multe tokenuri decât folosim de fapt. TiDAR exploatează aceste "sloturi gratuite" prin:
1. Redactarea mai multor jetoane simultan folosind difuzia (faza de "gândire")
2. Verificarea lor folosind autoregresia (faza de "vorbit")
Ambele se întâmplă simultan folosind măști inteligente de atenție – bidirecționale pentru desen, cauzale pentru verificare.
Rezultatele:
↳ 4,71x mai rapid la parametri de 1,5B și pierdere de calitate zero
↳ Aproape de 6 ori mai rapid la parametri 8B
↳ Prima arhitectură care depășește decodarea speculativă (EAGLE-3)
↳ Funcționează cu cache standard KV, spre deosebire de modelele de difuzie pură
Trucul de antrenament este ingenios – în loc să mascheze jetoanele la întâmplare, maschează totul. Acest lucru oferă semnale de învățare mai puternice și permite o elaborare eficientă în un singur pas.
Dacă construiești agenți AI în timp real unde latența strică experiența, această arhitectură merită să fie atentă.
...

Limită superioară
Clasament
Favorite

