A maioria das pessoas acha que a computação descentralizada falha porque "não há GPUs suficientes." Eles estão olhando para o estoque. O verdadeiro bloqueio é a coordenação, e quem resolver pode definir as regras para a infraestrutura de IA. 🧵
/2 Continuamos aprendendo a lição errada com computação voluntária como Folding@Home. Esses trabalhos toleram nós lentos e desistências. O treinamento moderno de IA e a inferência punem a inconsistência, uma GPU instável pode travar a execução toda.
/3 Uma pergunta continua surgindo para nós: GPUs espalhadas globalmente e desajustadas podem se comportar como uma única máquina previsível? Se a resposta for não, confiabilidade e experiência de desenvolvedor nunca importam, porque nada é enviado.
/4 A internet faz as GPUs se comportarem como instrumentos com sintonia diferente. Stacks de data center assumem o timing perfeito. Uma malha global te dá jitter, largura de banda desigual, tempo de inatividade aleatório e variação de hardware. A coordenação precisa absorver essa bagunça.
/5 @YottaLabs segue o caminho do sistema operacional, não o do marketplace. Agendamento, comunicação, descarregamento de memória, manejo de falhas, verificação. A questão é simples: transformar máquinas pouco confiáveis em um cluster que se comporta de forma previsível o suficiente para SLAs.
/6 O insight mais concreto é dividir a inferência em dois cargos. Prefill precisa das melhores GPUs. A decodificação pode rodar em GPUs mais fracas. Esse design impede que cartas caras esperem por baratas, e torna as "frotas mistas" úteis em vez de dolorosas.
/7 Então o gargalo oculto, movendo a memória de trabalho do modelo (cache KV). Se você enviar em uma grande transferência, você atrasa. O Yotta transmite pequenos pedaços enquanto o cálculo roda e comprime o cache, então a latência WAN para de dominar.
99