Дефицит GPU в AI никогда не был связан с чипами. У нас их предостаточно. Настоящий кризис в том, что мы все еще не можем использовать большинство из них. Вот почему 🧵
@cot_research 2/ Посмотрите на разрыв: Волонтерские вычисления, такие как Folding@Home, хорошо работают на потребительском оборудовании. Даже @pewdiepie делает отличную работу и вносит свой вклад! Современные рабочие нагрузки ИИ, однако, потерпят неудачу. Одна и та же аппаратная база. Совершенно другой результат. Почему?
3/ Современные AI-рантаймы (инференс или обучение) предполагают стерильные условия: - Идентичные GPU - Низколатентные, стабильные соединения Однако реальный мир представляет собой беспорядок из гетерогенных машин и медленного интернета Стандартный технологический стек здесь рушится.
4/ Многие так называемые "децентрализованные" вычислительные сети не достигли соответствия продукту и рынку, потому что рассматривают этот беспорядок как крайний случай. Они создают рынки для агрегирования неиспользуемых GPU, но агрегирование — это не координация. Если оборудование не может вести себя как одно целое, то это... довольно бесполезно.
5/ Координация находится на верхнем уровне. В вычислительных сетях: если вы сначала не решите проблему координации фрагментированного оборудования, то все остальное, что вы построите, не имеет значения. Надежность и опыт разработчика — это проблемы нижнего уровня.
6/ @YottaLabs — первая команда, которую я видел, которая подошла к этому с нуля и добилась значительного прогресса. Перестроив стек ИИ, от планировщика до слоя связи, они приблизили производительность децентрализованных вычислений к ~15% от централизованных кластеров.
7/ Что еще более интересно, так это бизнес-модель @YottaLabs. Рынок является второстепенным. Они создают защиту данных в области операционной устойчивости, которую Google не может воспроизвести - интеллектуальный оптимизатор. Yotta возвращает каждую тепловую всплеск и сбой сети обратно в свой оптимизатор. Подробнее об этом позже.
41