Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Robert Youssef
Esse artigo me 🤯 chocou
Todo mundo no X fica se gabando de "LLM-como-juiz" como se fosse um oráculo mágico da verdade.
Mas este artigo mostra algo insano:
A maioria das avaliações de LLMs que você viu é tendenciosa pelo design não porque os modelos sejam ruins, mas porque o próprio juiz discretamente deturpa a nota.
Aqui vem a parte mais louca:
Se um juiz for um pouco ruim em detectar respostas erradas (baixa especificidade), isso infla a precisão.
Se ele for um pouco ruim em reconhecer respostas corretas (baixa sensibilidade), isso diminui a precisão.
Mesmo modelo. Mesmas saídas.
Mas você tem dois juízes diferentes = duas "precisões" diferentes.
Os autores mostram a matemática, as curvas de erro e o ponto exato em que o juiz começa a mentir para você sem querer.
Então eles construíram uma correção:
Um estimador plug-in que ajusta a pontuação julgada de volta para a pontuação real usando dados de calibração.
Além de um intervalo de confiança que finalmente reflete a incerteza tanto do conjunto de avaliação quanto do conjunto de calibração.
Aqui está o que me chocou:
Eles até mostram como alocar amostras de calibração de forma eficiente para que você não desperdiça orçamento, algo que ninguém na avaliação de LLM fala.
Se você tem comparado modelos usando a "precisão bruta do juiz do LLM"...
Metade desses gráficos que você viu nas linhas do tempo provavelmente estão errados.
Este artigo é um choque de realidade para todo o ecossistema de avaliação.

2,15K
Esse artigo da NVIDIA acabou de quebrar meu cérebro.
Todo mundo fica falando em escalar transformadores com clusters maiores e otimizadores mais inteligentes... enquanto isso, NVIDIA e Oxford acabaram de mostrar que é possível treinar modelos bilionários de parâmetros usando estratégias evolutivas, um método que a maioria das pessoas considerou antigo.
O truque é um novo sistema chamado EGGROLL, que inverte todo o modelo de custo do ES.
Normalmente, o ES morre em escala porque você precisa gerar matrizes de perturbação de rank completo para cada membro da população. Para modelos de bilhões de parâmetros, isso significa movimento insano da memória e computação absurda.
Esses caras resolveram isso gerando perturbações de baixo nível usando duas matrizes skinny A e B e deixando o ABT atuar como atualização.
A média da população então se comporta como uma atualização completa de rank sem pagar o preço de rank total.
O resultado?
Eles executam estratégias evolutivas com populações na casa das centenas de milhares que vários trabalhos anteriores não conseguiam alcançar porque tudo derreteu sob pressão da memória. Agora, a taxa de transferência é basicamente tão rápida quanto inferência em lote.
Isso é inédito para qualquer método sem gradiente.
A matemática também bate certo.
A aproximação de baixo posto converge para o verdadeiro gradiente ES a uma taxa 1/r, então empurrar o posto recria o comportamento completo do ES sem a explosão computacional.
Mas são nos experimentos que a coisa fica louca.
→ Eles pré-treinam LMs recorrentes do zero usando apenas tipos de dados inteiros. Sem gradientes. Sem backprop. Totalmente estável mesmo em hiperescala.
→ Eles correspondem a métodos de nível GRPO em benchmarks de raciocínio LLM.
Isso significa que o ES pode competir com abordagens modernas de RL por raciocínio em tarefas reais.
→ ES de repente se torna viável para sistemas massivos, discretos, híbridos e não diferenciáveis, exatamente nos lugares onde a retropropulsão é dolorosa ou impossível.
Este artigo reescreve discretamente um limite:
Não tivemos dificuldade para escalar o ES porque o algoritmo era ruim, tivemos dificuldades porque estávamos fazendo da forma mais cara possível.
NVIDIA e Oxford eliminaram esse gargalo.
E agora estratégias de evolução não são mais uma ideia antiga... Eles são um método de treinamento em escala de fronteira.

68,38K
Isso me 🤯 deixou de maluco
Acabei de ler um artigo do MIT sobre ARC e mudou completamente a forma como vejo o benchmark.
Os pesquisadores não trataram o ARC como um quebra-cabeça lógico de forma alguma. Eles tratavam cada tarefa como uma transformação visual.
Grade dentro → grade fora. Nada mais complicado do que isso.
Eles construíram um pequeno Transformador de Visão, treinaram do zero no pequeno conjunto de dados do ARC e usaram um truque simples de tela para posicionar cada exemplo como uma imagem.
Depois adicionaram mudanças de escala, traduções e priors visuais básicos que você vê em trabalhos clássicos de visão computacional.
É isso.
Sem cadeia de pensamento, sem estímulos, sem truques simbólicos inteligentes.
Apenas um modelo olhando para pixels e aprendendo como as formas se movem, viram, crescem, colapsam ou se transportam.
A parte selvagem?
Esse modelo minúsculo atinge 54,5% sozinho e 60,4% quando combinado com um U-Net.
Isso está exatamente em torno do desempenho humano médio com um modelo que se encaixa no tamanho de um aplicativo móvel pequeno.
Ver ARC resolvido dessa forma faz todo o benchmark parecer diferente.
As tarefas de repente parecem mapeamentos de imagens em vez de regras ocultas. Tarefas de reflexão na verdade parecem reflexos.
Tarefas de simetria parecem simetria. Tarefas de gravidade parecem peças "caindo" diretamente pela tela.
Sinceramente, ainda estou processando isso.
Esse pode ser o resultado de ARC mais fundamentado que li em anos e veio de tratar o benchmark da forma mais literal que qualquer pessoa já fez.

7,07K
Melhores
Classificação
Favoritos
