Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Îmi place foarte mult această direcție de cercetare!
De mult timp, am vorbit despre analogia "creier vs. bază de date" SSM vs Transformers. O extensie a acestui lucru pe care am menționat-o de câteva ori este că cred că compromisurile se schimbă atunci când începem să ne gândim la construirea de *sisteme* cu mai multe componente, mai degrabă decât de modele unice.
De exemplu, dacă cineva subscrie la intuiția că modelele hibride moderne folosesc SSM ca unitate principală de procesare "asemănătoare creierului", în timp ce atenția este în primul rând pentru cache-ul "asemănător unei baze de date" pentru a ajuta la recuperarea precisă, atunci am emis ipoteza că poate un sistem mai optim ar putea fi un model de limbaj SSM pur combinat cu baze de date de cunoștințe externe explicite și cache-uri de context. Acest lucru este mult mai analog cu inteligența umană care este condusă în primul rând de creier (un SSM) ajutat de depozitele de cunoștințe externe (cărți, internet) și utilizarea instrumentelor.
Această lucrare arată rezultate destul de interesante că SSM-urile par să aibă performanțe foarte favorabile în comparație cu transformatoarele în acest regim de modele agentice care operează cu utilizarea instrumentelor interactive. Mă bucur să văd că intuiția a fost validată și sper să continue mai multe cercetări în acest sens!
Limită superioară
Clasament
Favorite

