Useimmat ihmiset ajattelevat, että hajautettu laskenta epäonnistuu, koska "näytönohjaimia ei ole tarpeeksi." He tuijottavat huoltoa. Todellinen este on koordinointi, ja se, joka sen ratkaisee, saa asettaa säännöt tekoälyinfrastruktuurille. 🧵
/2 Opimme jatkuvasti väärän läksyn vapaaehtoisesta laskennasta kuten Folding@Home. Nuo työt kestävät hitaita solmuja ja keskeytyksiä. Nykyaikainen tekoälykoulutus ja päättely rankaisevat epäjohdonmukaisuutta, yksi heikko GPU voi pysäyttää koko suorituksen.
/3 Yksi kysymys nousee meille jatkuvasti esiin: Voivatko maailmanlaajuisesti hajallaan olevat ja eripariset näytönohjaimet käyttäytyä kuin yksi ennustettava kone? Jos vastaus on ei, luotettavuus ja kehittäjäkokemus eivät koskaan merkitse mitään, koska mikään ei toimi.
/4 Internet saa GPU:t käyttäytymään kuin instrumentit eri virityksillä. Datakeskusten pinot olettavat täydellisen ajoituksen. Globaali mesh aiheuttaa nykimistä, epätasaista kaistanleveyttä, satunnaista käyttökatkoa ja laitteistovaihtelua. Koordinaation täytyy imeä tämä sotku.
/5 @YottaLabs valitsee käyttöjärjestelmän reitin, ei markkinapaikan kautta. Aikataulutus, viestintä, muistin purkaminen, vikakäsittely, varmistus. Pointti on yksinkertainen: muuta epäluotettavat koneet klusteriksi, joka käyttäytyy riittävän ennustettavasti SLA:ille.
/6 Konkreettisin oivallus on jaettu johtopäätös kahteen tehtävään. Prefill tarvitsee parhaat GPU:t. Dekoodaus voi toimia heikommilla näytönohjaimilla. Tämä suunnittelu estää kalliita kortteja odottamasta halpoja, ja tekee "sekalaivastoista" hyödyllisiä eikä kivuliaita.
/7 Sitten piilotettu pullonkaula, joka siirtää mallin työmuistia (KV-välimuisti). Jos lähetät sen yhdellä isolla siirrolla, viivyttelet. Yotta striimaa pieniä osia laskentaprosessin aikana ja pakkaa välimuistin, joten WAN-viive lakkaa hallitsemasta.
121