Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
La plupart des gens pensent que le calcul décentralisé échoue parce qu'il "n'y a pas assez de GPU."
Ils se concentrent sur l'offre.
Le véritable obstacle est la coordination, et celui qui le résout pourra établir les règles pour l'infrastructure de l'IA. 🧵

/2 Nous continuons à tirer la mauvaise leçon du calcul bénévole comme Folding@Home.
Ces tâches tolèrent les nœuds lents et les abandons.
L'entraînement et l'inférence modernes de l'IA punissent l'incohérence, un GPU défaillant peut bloquer l'ensemble du processus.
/3 Une question revient sans cesse pour nous :
Des GPU dispersés dans le monde et mal assortis peuvent-ils se comporter comme une machine prévisible ?
Si la réponse est non, la fiabilité et l'expérience développeur n'ont jamais d'importance, car rien ne sera expédié.
/4 Internet fait que les GPU se comportent comme des instruments avec des accordages différents.
Les piles de centres de données supposent un timing parfait.
Un maillage global vous donne du jitter, une bande passante inégale, des temps d'arrêt aléatoires et une variance matérielle. La coordination doit absorber ce désordre.
/5 @YottaLabs prend la voie du système d'exploitation, pas celle du marché.
Planification, communication, déchargement de mémoire, gestion des erreurs, vérification.
Le point est simple, transformer des machines peu fiables en un cluster qui se comporte de manière suffisamment prévisible pour les SLA.
/6 L'idée la plus concrète, diviser l'inférence en deux tâches.
Le préremplissage nécessite les meilleurs GPU.
Le décodage peut fonctionner sur des GPU moins puissants.
Ce design empêche les cartes coûteuses d'attendre les moins chères, et il rend les « flottes mixtes » utiles au lieu d'être douloureuses.
/7 Ensuite, le goulot d'étranglement caché, le déplacement de la mémoire de travail du modèle (cache KV).
Si vous l'expédiez en un seul gros transfert, vous bloquez.
Yotta envoie de petits morceaux pendant que le calcul s'exécute et compresse le cache, de sorte que la latence WAN cesse de dominer.
112
Meilleurs
Classement
Favoris
