Більшість людей вважають, що децентралізовані обчислення не справляються, бо «GPU недостатньо». Вони дивляться на запаси. Справжнім блокувальником є координація, і той, хто її вирішить, встановлює правила для інфраструктури ШІ. 🧵
/2 Ми постійно засвоюємо неправильний урок із волонтерських обчислень, як Folding@Home. Такі роботи терплять повільні вузли та відсіки. Сучасне навчання ШІ та висновки карають непослідовність, одна нестабільна відеокарта може зупинити весь забіг.
/3 Одне питання постійно виникає: Чи можуть глобально розкидані, невідповідні GPU поводитися як одна передбачувана машина? Якщо відповідь — ні, надійність і досвід розробника ніколи не мають значення, бо нічого не відправляється.
/4 Інтернет змушує GPU поводитися як інструменти з різним налаштуванням. Стеки дата-центрів передбачають ідеальний таймінг. Глобальна сітка дає джитер, нерівномірну пропускну здатність, випадкові простої та апаратну варіабельність. Координація має поглинати цей безлад.
/5 @YottaLabs обирає шлях ОС, а не маркетплейс. Планування, комунікація, розвантаження пам'яті, обробка несправностей, верифікація. Суть проста: перетворити ненадійні машини на кластер, який поводиться досить передбачувано для SLA.
/6 Найконкретніший висновок — розділити висновки на дві роботи. Попереднє заповнення потребує найкращих GPU. Decode може працювати на слабших GPU. Такий дизайн не дозволяє дорогим картам чекати на дешеві, і робить «змішані флоти» корисними, а не болючими.
/7 Потім прихований вузький місце, переміщення робочої пам'яті моделі (кеш KV). Якщо відправити за один великий трансфер, ви затягуєтеся. Yotta транслює невеликі частини під час виконання обчислювальної системи і стискає кеш, тому затримка WAN перестає домінувати.
128