Większość ludzi myśli, że zdecentralizowane obliczenia zawodzą, ponieważ „nie ma wystarczającej liczby GPU”. Patrzą na podaż. Prawdziwą przeszkodą jest koordynacja, a ten, kto ją rozwiąże, będzie mógł ustalać zasady dla infrastruktury AI. 🧵
/2 Nadal uczymy się złej lekcji z wolontariackiego obliczania, jak Folding@Home. Te zadania tolerują wolne węzły i przerwy w działaniu. Nowoczesne szkolenie i wnioskowanie AI karzą za niespójność, jedna zawodna karta GPU może zablokować całe uruchomienie.
/3 Pytanie, które ciągle się pojawia: Czy globalnie rozproszone, niedopasowane GPU mogą działać jak jedna przewidywalna maszyna? Jeśli odpowiedź brzmi nie, niezawodność i doświadczenie dewelopera nigdy nie mają znaczenia, ponieważ nic nie zostanie wydane.
/4 Internet sprawia, że GPU zachowują się jak instrumenty o różnych strojach. Stosy centrów danych zakładają idealne synchronizacje. Globalna siatka wprowadza opóźnienia, nierówną przepustowość, losowe przestoje i różnice w sprzęcie. Koordynacja musi poradzić sobie z tym bałaganem.
/5 @YottaLabs wybiera drogę systemu operacyjnego, a nie drogę rynku. Harmonogramowanie, komunikacja, odciążenie pamięci, obsługa błędów, weryfikacja. Punkt jest prosty, przekształć niestabilne maszyny w klaster, który zachowuje się wystarczająco przewidywalnie, aby spełnić SLA.
/6 Najbardziej konkretna wskazówka, podzielić wnioskowanie na dwa zadania. Prefill potrzebuje najlepszych GPU. Dekodowanie może działać na słabszych GPU. Ten projekt zapobiega czekaniu drogich kart na tanie, a także sprawia, że „mieszane floty” są użyteczne zamiast bolesne.
/7 Następnie ukryty wąskie gardło, przenoszenie pamięci roboczej modelu (cache KV). Jeśli wyślesz to w jednym dużym transferze, zatrzymujesz się. Yotta przesyła małe kawałki podczas działania obliczeń i kompresuje pamięć podręczną, dzięki czemu opóźnienie WAN przestaje dominować.
112