Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Budynek @EurekaLabsAI. Wcześniej dyrektor AI @ Tesla, zespół założycielski @ OpenAI, CS231n/PhD @ Stanford. Lubię trenować duże, głębokie sieci neuronowe.
Nowy post: miniserial nanochat v1
Prawidłowy sposób myślenia o LLM to nie optymalizacja dla jednego konkretnego modelu, ale dla rodziny modeli kontrolowanej przez jeden pokrętło (obliczenia, które chcesz wydać), aby osiągnąć monotonicznie lepsze wyniki. To pozwala na dokładne badania praw scalingowych i ostatecznie to daje ci pewność, że gdy płacisz za "wielkie uruchomienie", ekstrapolacja zadziała, a twoje pieniądze będą dobrze wydane. Przy pierwszym publicznym wydaniu nanochat skupiłem się na end-to-end pipeline, który uruchamia cały pipeline LLM ze wszystkimi jego etapami. Teraz, po YOLOowaniu kilku wcześniejszych uruchomień, wracam, aby rozwinąć niektóre części, które przeleciałem, zaczynając oczywiście od wstępnego treningu, który jest zarówno obliczeniowo intensywny, jak i krytyczny jako fundament inteligencji i wiedzy w tych modelach.
Po lokalnym dostrojeniu niektórych hiperparametrów, przeszukałem szereg modeli, ustalając budżet FLOPs. (Dla każdego celu FLOPs możesz trenować mały model przez długi czas lub duży model przez krótki czas.) Okazuje się, że nanochat przestrzega bardzo ładnych praw scalingowych, zasadniczo reprodukując wykresy z pracy Chinchilla:
Co jest po prostu wersją dziecięcą tego wykresu z Chinchilla:
Bardzo ważne i zachęcające jest to, że wykładnik N (parametry) i D (tokeny) jest równy przy ~=0.5, więc tak jak w Chinchilla otrzymujemy stałą (niezależną od obliczeń), która łączy rozmiar modelu z horyzontami treningowymi tokenów. W Chinchilla zmierzono to na 20. W nanochat wydaje się to być 8!
Gdy możemy trenować modele optymalne pod względem obliczeń, przeszukałem miniserial od d10 do d20, które są rozmiarami nanochat, które mogą obsługiwać 2**19 ~= 0.5M rozmiarów wsadu na węźle 8XH100 bez akumulacji gradientu. Otrzymujemy ładne, nieprzecinające się wykresy treningowe dla każdego rozmiaru modelu.
Potem zabawna część polega na powiązaniu tego miniserialu v1 z miniserialami GPT-2 i GPT-3, aby wiedzieć, że jesteśmy na dobrej drodze. Strata walidacyjna ma wiele problemów i nie jest porównywalna, więc zamiast tego używam wyniku CORE (z pracy DCLM). Obliczyłem go dla GPT-2 i oszacowałem dla GPT-3, co pozwala nam w końcu ładnie umieścić nanochat na tej samej skali:
Całkowity koszt tego miniserialu wynosi tylko ~$100 (~4 godziny na 8XH100). Te eksperymenty dają nam pewność, że wszystko działa całkiem dobrze i że jeśli zapłacimy więcej (przekręcimy pokrętło), otrzymamy coraz lepsze modele.
TLDR: możemy trenować optymalne miniseriale pod względem obliczeń i powiązać je z GPT-2/3 za pomocą obiektywnych wyników CORE, ale dalsze poprawki są pożądane i potrzebne. Np. dopasowanie do GPT-2 obecnie wymaga ~$500, ale moim zdaniem powinno być możliwe do zrobienia za <$100 przy większej pracy.
Pełny post z dużo większą ilością szczegółów jest tutaj:
A cały tuning i kod zostały przesłane do mastera i ludzie mogą to powtórzyć za pomocą skryptów bash scaling_laws .sh i miniseries .sh.




1,17K
Pierwsza w 100% autonomiczna podróż z wybrzeża na wybrzeże na Tesla FSD V14.2! 2 dni 20 godzin, 2732 mile, zero interwencji.
To jest wyjątkowe, ponieważ podróż z wybrzeża na wybrzeże była głównym celem zespołu autopilota od samego początku. Spędzono wiele godzin na maratonach przeglądów nagrań do późna w nocy, analizując interwencje, gdy próbowaliśmy odcinków podróży w miarę upływu czasu - klasyfikując, kategoryzując, planując wszystkie projekty, aby zlikwidować luki i doprowadzić liczbę interwencji do zera.
Niesamowite widzieć, jak system faktycznie to osiągnął, i ogromne gratulacje dla zespołu!

David Moss31 gru 2025
Z dumą ogłaszam, że pomyślnie ukończyłem pierwszą na świecie w pełni autonomiczną jazdę z wybrzeża USA na wybrzeże!
Opuściłem Tesla Diner w Los Angeles 2 dni i 20 godzin temu, a teraz zakończyłem w Myrtle Beach, SC (2,732.4 mil)
To zostało osiągnięte dzięki Tesla FSD V14.2 z absolutnie 0 disengagements jakiegokolwiek rodzaju, nawet podczas parkowania, w tym przy Tesla Superchargerach.

462
Najlepsze
Ranking
Ulubione
