Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Clădirea @EurekaLabsAI. Anterior Director AI @ Tesla, echipa fondatoare @ OpenAI, CS231n/PhD @ Stanford. Îmi place să antrenez rețele neuronale mari și profunde.
Postare nouă: miniseria nanochat v1
Modul corect de a privi LLM-urile este că nu optimizezi pentru un singur model specific, ci pentru modele de familie controlate de un singur cadran (calculul pe care dorești să-l cheltuiești) pentru a obține rezultate monotone mai bune. Acest lucru îți permite să faci o știință atentă privind scalarea legilor și, în cele din urmă, asta îți dă încrederea că atunci când plătești pentru "marea rundă", extrapolarea va funcționa și banii tăi vor fi bine cheltuiți. Pentru prima versiune publică a nanochat, m-am concentrat pe pipeline-ul end-to-end care rulează întregul pipeline LLM cu toate etapele sale. Acum, după ce am făcut YOLO cu câteva runde mai devreme, revin să dezvolt câteva dintre părțile pe care le-am parcurs rapid, începând desigur cu pre-antrenamentul, care este atât greu din punct de vedere computațional, cât și esențial ca bază a inteligenței și cunoștințelor în aceste modele.
După ce am ajustat local câțiva dintre hiperparametri, am eliminat mai multe modele care rezolvau bugetul FLOP-urilor. (Pentru fiecare FLOP țintă poți antrena un model mic mult timp sau un model mare pentru o perioadă scurtă.) Se pare că nanochat respectă legi foarte stricte de scalare, practic reproducând graficele de hârtie ale chinchillei:
Care este doar o versiune pentru bebeluși a acestei povești din Chinchilla:
Foarte important și încurajator, exponentul pe N (parametri) și D (tokens) este egal la ~=0,5, deci, la fel ca la Chinchilla, obținem o constantă unică (independentă de calcul) care leagă dimensiunea modelului de orizonturile de antrenare a token-urilor. La chinchilla, aceasta a fost măsurată la 20. În nanochat pare să fie 8!
Odată ce putem antrena modele optime de calcul, am realizat o miniserie de la d10 la d20, care sunt dimensiuni nanochat ce pot face 2**19 ~= 0,5M de loturi pe nodul 8XH100 fără acumulare de gradient. Obținem grafice de antrenament frumoase, fără iterații, pentru fiecare dimensiune de model.
Partea distractivă este să legăm această miniserie v1 de miniseria GPT-2 și GPT-3, ca să știm că suntem pe drumul cel bun. Pierderea de validare are multe probleme și nu este comparabilă, așa că folosesc în schimb scorul CORE (din lucrarea DCLM). L-am calculat pentru GPT-2 și l-am estimat pentru GPT-3, ceea ce ne permite în sfârșit să punem nanochat frumos și pe aceeași scară:
Costul total al acestei miniserii este de doar ~100$ (~4 ore pe 8XH100). Aceste experimente ne dau încredere că totul funcționează destul de bine și că, dacă plătim mai mult (întoarcem butoanul), obținem modele din ce în ce mai bune.
Pe scurt: putem antrena miniserii optime de calcul și le putem corela cu GPT-2/3 prin scoruri CORE obiective, dar sunt dorite și necesare îmbunătățiri suplimentare. De exemplu, potrivirea GPT-2 necesită în prezent ~500$, dar după părerea mea ar trebui să fie posibil să faci <$100$ cu mai multă muncă.
Postarea completă cu mult mai multe detalii este aici:
Și tot tuning-ul și codul sunt împinși spre masterizare, iar oamenii pot reproduce aceste materiale cu scaling_laws .sh și miniserii .sh scripturi de tip bash.




1,44K
Prima călătorie 100% autonomă de la coastă la coastă pe Tesla FSD V14.2! 2 zile, 20 de ore, 2732 mile, zero intervenții.
Aceasta este specială pentru că deplasarea de la coastă la coastă a fost un obiectiv major pentru echipa pilotului automat încă de la început. Multe ore au fost petrecute în sesiuni maraton de revizuire a clipurilor până târziu în noapte, analizând intervențiile în timp ce încercam să parcurgem etape ale drumului – triere, categorisire, planificarea tuturor proiectelor pentru a reduce diferența și a reduce numărul intervențiilor la zero.
E uimitor să vezi cum sistemul chiar a ajuns acolo și felicitări uriașe echipei!

David Moss31 dec. 2025
Sunt mândru să anunț că am reușit să finalizez primul drum complet autonom din SUA de la coastă la coastă!
Am plecat de la Tesla Diner din Los Angeles acum 2 zile și 20 de ore, iar acum am terminat în Myrtle Beach, SC (2.732,4 mile)
Acest lucru a fost realizat cu Tesla FSD V14.2, fără nicio deconectare de niciun fel, chiar și pentru toate parcările, inclusiv la supraîncărcătoarele Tesla.

648
Limită superioară
Clasament
Favorite
