Эта статья NVIDIA просто сломала мой мозг. Все продолжают говорить о масштабировании трансформеров с помощью больших кластеров и более умных оптимизаторов… в то время как NVIDIA и Оксфорд только что показали, что можно обучать модели с миллиардами параметров, используя стратегии эволюции, метод, который большинство людей списали как устаревший. Фокус в новой системе под названием EGGROLL, которая переворачивает всю модель затрат ES. Обычно ES не работает на больших масштабах, потому что вам нужно генерировать полнорядные матрицы возмущений для каждого члена популяции. Для моделей с миллиардами параметров это означает безумное перемещение памяти и невообразимые вычисления. Эти ребята решили проблему, генерируя низкоранговые возмущения с помощью двух тонких матриц A и B и позволяя ABᵀ действовать как обновление. Среднее значение популяции затем ведет себя как полнорядное обновление, не платя полнорядную цену. Результат? Они запускают стратегии эволюции с размерами популяции в сотни тысяч, число, с которым ранние работы не могли справиться, потому что все «плавилось» под давлением памяти. Теперь пропускная способность в основном такая же быстрая, как пакетная инференция. Это беспрецедентно для любого метода без градиентов. Математика тоже подтверждается. Низкоранговое приближение сходится к истинному градиенту ES с коэффициентом 1/r, так что увеличение ранга воссоздает полное поведение ES без вычислительного взрыва. Но эксперименты — это то, где все становится безумным. → Они предварительно обучают рекуррентные языковые модели с нуля, используя только целочисленные типы данных. Без градиентов. Без обратного распространения. Полностью стабильно даже на гипермасштабах. → Они соответствуют методам уровня GRPO на бенчмарках рассуждений LLM. Это означает, что ES может конкурировать с современными подходами RL для рассуждений по реальным задачам. → ES внезапно становится жизнеспособным для массовых, дискретных, гибридных и недифференцируемых систем — именно в тех местах, где обратное распространение болезненно или невозможно. ...