De flesta tror att decentraliserad beräkning misslyckas för att "det inte finns tillräckligt med GPU:er." De stirrar på leveransen. Det verkliga hindret är samordning, och den som löser det får sätta reglerna för AI-infrastrukturen. 🧵
/2 Vi lär oss fel läxa från frivillig beräkning som Folding@Home. De jobben tolererar långsamma noder och avhopp. Modern AI-träning och inferens straffar inkonsekvens, en opålitlig GPU kan stoppa hela körningen.
/3 En fråga dyker ständigt upp till oss: Kan globalt spridda, omatchade GPU:er bete sig som en förutsägbar maskin? Om svaret är nej, spelar tillförlitlighet och utvecklarupplevelse aldrig någon roll, eftersom inget levereras.
/4 Internet får GPU:er att bete sig som instrument med olika stämning. Datacenterstackar förutsätter perfekt timing. Ett globalt mesh ger dig jitter, ojämn bandbredd, slumpmässig driftstopp och hårdvaruvariation. Samordning måste absorbera det där kaoset.
/5 @YottaLabs väljer OS-vägen, inte marknadsplatsen. Schemaläggning, kommunikation, minnesavlastning, felhantering, verifiering. Poängen är enkel: förvandla opålitliga maskiner till en kluster som beter sig tillräckligt förutsägbart för SLA:er.
/6 Den mest konkreta insikten, dela upp inferensen i två jobb. Prefill kräver de bästa grafikkorten. Decode kan köras på svagare grafikkort. Den designen hindrar dyra kort från att vänta på billiga kort, och gör "blandade flottor" användbara istället för smärtsamma.
/7 Sedan den dolda flaskhalsen, som flyttar modellens arbetsminne (KV-cache). Om du skickar det i en stor överföring så försvinner du. Yotta strömmar små delar medan beräkningen körs och komprimerar cachen, så WAN-latensen slutar dominera.
130