Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Este artigo da NVIDIA acabou de me deixar perplexo.
Todos continuam a falar sobre como escalar transformadores com clusters maiores e otimizadores mais inteligentes… enquanto isso, a NVIDIA e Oxford acabaram de mostrar que é possível treinar modelos com bilhões de parâmetros usando estratégias de evolução, um método que a maioria das pessoas descartou como antiquado.
O truque é um novo sistema chamado EGGROLL, que inverte todo o modelo de custo do ES.
Normalmente, o ES falha em grande escala porque você precisa gerar matrizes de perturbação de plena classificação para cada membro da população. Para modelos com bilhões de parâmetros, isso significa um movimento de memória insano e um cálculo ridículo.
Esses caras resolveram isso gerando perturbações de baixa classificação usando duas matrizes finas A e B e deixando ABᵀ atuar como a atualização.
A média da população então se comporta como uma atualização de plena classificação sem pagar o preço de plena classificação.
O resultado?
Eles executam estratégias de evolução com tamanhos de população na casa das centenas de milhares, um número que trabalhos anteriores não conseguiam alcançar porque tudo derretia sob pressão de memória. Agora, a taxa de transferência é basicamente tão rápida quanto a inferência em lotes.
Isso é inédito para qualquer método sem gradiente.
A matemática também confere.
A aproximação de baixa classificação converge para o verdadeiro gradiente do ES a uma taxa de 1/r, então aumentar a classificação recria o comportamento completo do ES sem a explosão computacional.
Mas os experimentos são onde as coisas ficam loucas.
→ Eles pré-treinam LMs recorrentes do zero usando apenas tipos de dados inteiros. Sem gradientes. Sem retropropagação. Totalmente estável mesmo em hiperescala.
→ Eles igualam métodos de nível GRPO em benchmarks de raciocínio de LLM.
Isso significa que o ES pode competir com abordagens modernas de RL para raciocínio em tarefas reais.
→ O ES de repente se torna viável para sistemas massivos, discretos, híbridos e não diferenciáveis, exatamente os lugares onde a retropropagação é dolorosa ou impossível.
...

Top
Classificação
Favoritos

