Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Esse artigo da NVIDIA acabou de quebrar meu cérebro.
Todo mundo fica falando em escalar transformadores com clusters maiores e otimizadores mais inteligentes... enquanto isso, NVIDIA e Oxford acabaram de mostrar que é possível treinar modelos bilionários de parâmetros usando estratégias evolutivas, um método que a maioria das pessoas considerou antigo.
O truque é um novo sistema chamado EGGROLL, que inverte todo o modelo de custo do ES.
Normalmente, o ES morre em escala porque você precisa gerar matrizes de perturbação de rank completo para cada membro da população. Para modelos de bilhões de parâmetros, isso significa movimento insano da memória e computação absurda.
Esses caras resolveram isso gerando perturbações de baixo nível usando duas matrizes skinny A e B e deixando o ABT atuar como atualização.
A média da população então se comporta como uma atualização completa de rank sem pagar o preço de rank total.
O resultado?
Eles executam estratégias evolutivas com populações na casa das centenas de milhares que vários trabalhos anteriores não conseguiam alcançar porque tudo derreteu sob pressão da memória. Agora, a taxa de transferência é basicamente tão rápida quanto inferência em lote.
Isso é inédito para qualquer método sem gradiente.
A matemática também bate certo.
A aproximação de baixo posto converge para o verdadeiro gradiente ES a uma taxa 1/r, então empurrar o posto recria o comportamento completo do ES sem a explosão computacional.
Mas são nos experimentos que a coisa fica louca.
→ Eles pré-treinam LMs recorrentes do zero usando apenas tipos de dados inteiros. Sem gradientes. Sem backprop. Totalmente estável mesmo em hiperescala.
→ Eles correspondem a métodos de nível GRPO em benchmarks de raciocínio LLM.
Isso significa que o ES pode competir com abordagens modernas de RL por raciocínio em tarefas reais.
→ ES de repente se torna viável para sistemas massivos, discretos, híbridos e não diferenciáveis, exatamente nos lugares onde a retropropulsão é dolorosa ou impossível.
...

Melhores
Classificação
Favoritos

