Большинство людей думает, что децентрализованные вычисления терпят неудачу, потому что "недостаточно GPU". Они смотрят на предложение. Настоящим препятствием является координация, и тот, кто решит эту проблему, сможет установить правила для инфраструктуры ИИ. 🧵
/2 Мы продолжаем извлекать неправильный урок из волонтерских вычислений, таких как Folding@Home. Эти задачи терпят медленные узлы и отключения. Современное обучение и вывод ИИ наказывают за непостоянство, одна ненадежная GPU может остановить весь процесс.
/3 Один вопрос постоянно возникает у нас: Могут ли глобально разбросанные, несовпадающие GPU вести себя как одна предсказуемая машина? Если ответ нет, надежность и опыт разработчика никогда не имеют значения, потому что ничего не будет выпущено.
/4 Интернет заставляет GPU вести себя как инструменты с разной настройкой. Стек дата-центров предполагает идеальную синхронизацию. Глобальная сеть создает задержки, неравномерную пропускную способность, случайные простои и вариации оборудования. Координация должна справляться с этим беспорядком.
/5 @YottaLabs выбирает путь ОС, а не путь рынка. Планирование, коммуникация, выгрузка памяти, обработка ошибок, верификация. Суть проста: превратить ненадежные машины в кластер, который ведет себя достаточно предсказуемо для SLA.
/6 Самое конкретное понимание: разделите вывод на две задачи. Для предварительного заполнения нужны лучшие GPU. Декодирование может выполняться на более слабых GPU. Этот дизайн предотвращает ожидание дорогих карт из-за дешевых, и делает «смешанные флоты» полезными, а не болезненными.
/7 Затем скрытое узкое место — перемещение рабочей памяти модели (KV кэш). Если вы отправите это одним большим пакетом, вы застрянете. Yotta передает небольшие части во время выполнения вычислений и сжимает кэш, так что задержка WAN перестает доминировать.
79