DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Andrej Karpathy

Clădirea @EurekaLabsAI. Anterior Director AI @ Tesla, echipa fondatoare @ OpenAI, CS231n/PhD @ Stanford. Îmi place să antrenez rețele neuronale mari și profunde.

Postare nouă: miniseria nanochat v1 Modul corect de a privi LLM-urile este că nu optimizezi pentru un singur model specific, ci pentru modele de familie controlate de un singur cadran (calculul pe care dorești să-l cheltuiești) pentru a obține rezultate monotone mai bune. Acest lucru îți permite să faci o știință atentă privind scalarea legilor și, în cele din urmă, asta îți dă încrederea că atunci când plătești pentru "marea rundă", extrapolarea va funcționa și banii tăi vor fi bine cheltuiți. Pentru prima versiune publică a nanochat, m-am concentrat pe pipeline-ul end-to-end care rulează întregul pipeline LLM cu toate etapele sale. Acum, după ce am făcut YOLO cu câteva runde mai devreme, revin să dezvolt câteva dintre părțile pe care le-am parcurs rapid, începând desigur cu pre-antrenamentul, care este atât greu din punct de vedere computațional, cât și esențial ca bază a inteligenței și cunoștințelor în aceste modele. După ce am ajustat local câțiva dintre hiperparametri, am eliminat mai multe modele care rezolvau bugetul FLOP-urilor. (Pentru fiecare FLOP țintă poți antrena un model mic mult timp sau un model mare pentru o perioadă scurtă.) Se pare că nanochat respectă legi foarte stricte de scalare, practic reproducând graficele de hârtie ale chinchillei: Care este doar o versiune pentru bebeluși a acestei povești din Chinchilla: Foarte important și încurajator, exponentul pe N (parametri) și D (tokens) este egal la ~=0,5, deci, la fel ca la Chinchilla, obținem o constantă unică (independentă de calcul) care leagă dimensiunea modelului de orizonturile de antrenare a token-urilor. La chinchilla, aceasta a fost măsurată la 20. În nanochat pare să fie 8! Odată ce putem antrena modele optime de calcul, am realizat o miniserie de la d10 la d20, care sunt dimensiuni nanochat ce pot face 2**19 ~= 0,5M de loturi pe nodul 8XH100 fără acumulare de gradient. Obținem grafice de antrenament frumoase, fără iterații, pentru fiecare dimensiune de model. Partea distractivă este să legăm această miniserie v1 de miniseria GPT-2 și GPT-3, ca să știm că suntem pe drumul cel bun. Pierderea de validare are multe probleme și nu este comparabilă, așa că folosesc în schimb scorul CORE (din lucrarea DCLM). L-am calculat pentru GPT-2 și l-am estimat pentru GPT-3, ceea ce ne permite în sfârșit să punem nanochat frumos și pe aceeași scară: Costul total al acestei miniserii este de doar ~100$ (~4 ore pe 8XH100). Aceste experimente ne dau încredere că totul funcționează destul de bine și că, dacă plătim mai mult (întoarcem butoanul), obținem modele din ce în ce mai bune. Pe scurt: putem antrena miniserii optime de calcul și le putem corela cu GPT-2/3 prin scoruri CORE obiective, dar sunt dorite și necesare îmbunătățiri suplimentare. De exemplu, potrivirea GPT-2 necesită în prezent ~500$, dar după părerea mea ar trebui să fie posibil să faci <$100$ cu mai multă muncă. Postarea completă cu mult mai multe detalii este aici: Și tot tuning-ul și codul sunt împinși spre masterizare, iar oamenii pot reproduce aceste materiale cu scaling_laws .sh și miniserii .sh scripturi de tip bash.

Limită superioară

Clasament

Favorite