Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Deci spune că câinii visează să prevină supraadaptarea? Pentru că știu că câinii mei urmăresc iepurii în somn.
Presupun că ați putea generaliza conceptul, dar așa cum este prezentat nu este convingător

18 oct., 02:51
Cea mai interesantă parte pentru mine este unde @karpathy descrie de ce LLM-urile nu sunt capabile să învețe ca oamenii.
După cum v-ați aștepta, el vine cu o frază minunat de evocatoare pentru a descrie RL: "sugerea bucăților de supraveghere printr-un pai".
O singură recompensă finală este difuzată pe fiecare token într-o traiectorie de succes, crescând chiar și virajele greșite sau irelevante care duc la răspunsul corect.
> "Oamenii nu folosesc învățarea prin întărire, așa cum am mai spus. Cred că fac ceva diferit. Învățarea prin întărire este mult mai proastă decât crede o persoană obișnuită. Învățarea prin întărire este groaznică. Se întâmplă ca tot ceea ce aveam înainte să fie mult mai rău."
Deci, ce fac oamenii în schimb?
> "Cartea pe care o citesc este un set de îndemnuri pentru mine să generez date sintetice. Prin manipularea acelor informații obții de fapt acele cunoștințe. Nu avem echivalent cu LLM-uri; nu prea fac asta."
> "Mi-ar plăcea să văd în timpul preantrenamentului un fel de etapă în care modelul se gândește la material și încearcă să-l reconcilieze cu ceea ce știe deja. Nu există echivalent pentru nimic din toate astea. Toate acestea sunt cercetări."
De ce nu putem adăuga acest training la LLM-urile de astăzi?
> "Există motive foarte subtile, greu de înțeles, pentru care nu este banal. Dacă dau doar o generație sintetică a modelului gândindu-se la o carte, te uiți la ea și spui: "Arată grozav. De ce nu pot să mă antrenez pe el?' Ai putea încerca, dar modelul se va înrăutăți mult dacă continui să încerci."
> "Să spunem că avem un capitol dintr-o carte și cer unui LLM să se gândească la asta. Îți va oferi ceva care pare foarte rezonabil. Dar dacă o întreb de 10 ori, vei observa că toate sunt la fel."
> "Nu obții bogăția, diversitatea și entropia de la aceste modele așa cum ai obține de la oameni. Cum faci ca generarea de date sintetice să funcționeze în ciuda colapsului și menținând în același timp entropia? Este o problemă de cercetare."
Cum ocolesc oamenii prăbușirea modelului?
> "Aceste analogii sunt surprinzător de bune. Oamenii se prăbușesc pe parcursul vieții lor. Copiii nu s-au supraadaptat încă. Vor spune lucruri care te vor șoca. Pentru că nu s-au prăbușit încă. Dar noi [adulții] suntem prăbușiți. Ajungem să revedem aceleași gânduri, ajungem să spunem din ce în ce mai multe lucruri, ratele de învățare scad, prăbușirea continuă să se înrăutățească și apoi totul se deteriorează."
De fapt, există o lucrare interesantă care susține că visarea a evoluat pentru a ajuta la generalizare și pentru a rezista supraadaptării la învățarea zilnică - căutați The Overfitted Brain de @erikphoel.
Am întrebat-o pe Karpathy: Nu este interesant că oamenii învață cel mai bine într-o parte a vieții lor (copilăria) ale cărei detalii reale le uită complet, adulții încă învață foarte bine, dar au o memorie groaznică despre particularitățile lucrurilor pe care le citesc sau le urmăresc, iar LLM-urile pot memora detalii arbitrare despre text pe care niciun om nu le-ar putea, dar în prezent sunt destul de proaste la generalizare?
> "[Memoria umană failibilă] este o caracteristică, nu o eroare, pentru că te obligă să înveți doar componentele generalizabile. LLM-urile sunt distrase de toată memoria pe care o au despre documentele pre-antrenate. De aceea, atunci când vorbesc despre nucleul cognitiv, vreau să elimin memoria. Mi-ar plăcea ca ei să aibă mai puțină memorie, astfel încât să fie nevoiți să caute lucruri și să mențină doar algoritmii pentru gândire și ideea unui experiment și tot acest lipici cognitiv pentru a acționa."
@karpathy este supraajustat
399
Limită superioară
Clasament
Favorite