Isto deixou-me de queixo caído 🤯 Acabei de ler um artigo do MIT sobre ARC e isso mudou completamente a forma como vejo o benchmark. Os investigadores não trataram o ARC como um quebra-cabeças lógico de forma alguma. Eles trataram cada tarefa como uma transformação visual. Grelha de entrada → grelha de saída. Nada mais complicado do que isso. Eles construíram um pequeno Vision Transformer, treinaram-no do zero com o pequeno conjunto de dados do ARC e usaram um truque simples de canvas para colocar cada exemplo como uma imagem. Depois, adicionaram mudanças de escala, traduções e priors visuais básicos que verias em trabalhos clássicos de visão computacional. E é isso. Sem cadeia de pensamento, sem prompts, sem truques simbólicos engenhosos. Apenas um modelo a olhar para pixels e a aprender como as formas se movem, viram, crescem, colapsam ou se transportam. A parte surpreendente? Este pequeno modelo atinge 54,5% sozinho e 60,4% quando combinado com um U-Net. Isso está bem perto do desempenho médio humano com um modelo que cabe no tamanho de uma pequena aplicação móvel. Ver o ARC resolvido desta forma faz com que todo o benchmark pareça diferente. As tarefas de repente parecem mapeamentos de imagem em vez de regras ocultas. As tarefas de reflexão realmente parecem reflexões. As tarefas de simetria parecem simetria. As tarefas de gravidade parecem peças "caindo" diretamente para baixo no canvas. ...