Esse artigo da NVIDIA acabou de quebrar meu cérebro. Todo mundo fica falando em escalar transformadores com clusters maiores e otimizadores mais inteligentes... enquanto isso, NVIDIA e Oxford acabaram de mostrar que é possível treinar modelos bilionários de parâmetros usando estratégias evolutivas, um método que a maioria das pessoas considerou antigo. O truque é um novo sistema chamado EGGROLL, que inverte todo o modelo de custo do ES. Normalmente, o ES morre em escala porque você precisa gerar matrizes de perturbação de rank completo para cada membro da população. Para modelos de bilhões de parâmetros, isso significa movimento insano da memória e computação absurda. Esses caras resolveram isso gerando perturbações de baixo nível usando duas matrizes skinny A e B e deixando o ABT atuar como atualização. A média da população então se comporta como uma atualização completa de rank sem pagar o preço de rank total. O resultado? Eles executam estratégias evolutivas com populações na casa das centenas de milhares que vários trabalhos anteriores não conseguiam alcançar porque tudo derreteu sob pressão da memória. Agora, a taxa de transferência é basicamente tão rápida quanto inferência em lote. Isso é inédito para qualquer método sem gradiente. A matemática também bate certo. A aproximação de baixo posto converge para o verdadeiro gradiente ES a uma taxa 1/r, então empurrar o posto recria o comportamento completo do ES sem a explosão computacional. Mas são nos experimentos que a coisa fica louca. → Eles pré-treinam LMs recorrentes do zero usando apenas tipos de dados inteiros. Sem gradientes. Sem backprop. Totalmente estável mesmo em hiperescala. → Eles correspondem a métodos de nível GRPO em benchmarks de raciocínio LLM. Isso significa que o ES pode competir com abordagens modernas de RL por raciocínio em tarefas reais. → ES de repente se torna viável para sistemas massivos, discretos, híbridos e não diferenciáveis, exatamente nos lugares onde a retropropulsão é dolorosa ou impossível. ...