Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
W tych kilku akapitach przedstawiłem tylko jeden sposób, w jaki przyspieszyłem trening i wnioskowanie AI w garażu, używając wypalonych i porzuconych GPU H100, które wielkie firmy wyrzuciły.
To jest warte miliardów, jeśli nie bilionów dolarów dla bystrej firmy.
Ścieżka jest teraz otwartym źródłem…

30 sie 2025
Przyspiesz Nvidia AI GPU: Proste triki na błyskawiczną wydajność
W moim garażu muszę sprawić, aby to niewielkie badania i rozwój, które nie są finansowane przez VC, działały, mam grosze i osiągam wyższe prędkości niż firmy z miliardami. Ten ograniczenie zmusza mnie do szukania sposobów na wyciśnięcie więcej z mniej. Robię wiele rzeczy, o których większość nie może pomyśleć. Oto przykład tylko jednego z setek.
GPU to potężne jednostki, wypełnione mnóstwem jednostek przetwarzających gotowych do obliczeń. Odkryłem, że często nie są w pełni wykorzystywane, co prowadzi do opóźnionej wydajności.
Co odkryłem? Inteligentne optymalizacje, które utrzymują te jednostki w ruchu, skracając czasy renderowania AI i dostarczając ogromne przyspieszenia.
Najpierw zidentyfikuj wąskie gardła.
Używam narzędzi profilujących, takich jak Nvidia Nsight, aby zobaczyć, co powstrzymuje postęp, czy to oczekiwanie na pamięć, czy inne rzeczy. Gdy już to zidentyfikuję, zagłębiam się i dostosowuję kod, aby włożyć więcej pracy w każdy wątek.
Proste zmiany, takie jak rozwijanie pętli czy kompresowanie danych, mogą ukryć opóźnienia i zwiększyć przepustowość, dając natychmiastowe skoki prędkości.
Wysokie wykorzystanie może czasami powodować chaos w pamięci podręcznej - napraw to, inteligentnie redukując liczbę wątków za pomocą kodu zastępczego lub modyfikacji pamięci, uwalniając zasoby dla równoległych zadań.
Prawdziwym przełomem? Asynchroniczne obliczenia. Uruchamiaj wiele zadań obok siebie, wypełniając puste miejsca i nakładając ciężkie obciążenia. Połącz zadania wymagające dużej ilości pamięci, aby uzyskać wielozadaniowość GPU - potencjalnie zmniejszając czasy o połowę i superładowując wydajność.
Te modyfikacje przekształcają niedostatecznie wykorzystywane GPU w demony prędkości. To nie jest inne niż to, jak przekształcone komputery osobiste IBM PC/AT mogły działać z prędkością do 100MHz w 1986 roku, gdy opuszczały fabrykę z prędkością 8MHz.
Napiszę więcej szczegółów na ten temat, ale jeśli duże firmy AI użyłyby mojej optymalizacji GPU na poziomie kodu operacyjnego Nvidia, prawdopodobnie szybko osiągnęłyby AGI.
Kiedy znasz sprzęt i oprogramowanie na niemal atomowym poziomie, możesz przekształcić pierwsze zasady.

9,63K
Najlepsze
Ranking
Ulubione