Havia algo profundamente satisfatório no ImageNet. Ele tinha um conjunto de treinamento bem organizado. Um protocolo de teste claramente definido. Uma competição que reuniu os melhores pesquisadores. E uma tabela de classificação que gerou ResNets e ViTs e, finalmente, mudou o campo para sempre. Então a PNL seguiu. Não importa o quanto OpenAI, Anthropic e xAI discordem, eles pelo menos concordam em uma coisa: benchmarking. MMLU, HLE, SWEBench - você não pode progredir até que seja capaz de medi-lo. A robótica ainda não tem esse chamado de mobilização. Ninguém concorda com nada: hardware, tarefa, pontuação, mecanismo de simulação ou ambiente do mundo real. Todo mundo é SOTA, por definição, no benchmark que define em tempo real para cada artigo. Do criador do ImageNet - BEHAVIOR enfrenta o desafio assustador de unificar o benchmarking robótico em um mecanismo de física reproduzível (Isaac Sim). O projeto começou antes de eu me formar no Stanford Vision Lab e levou muitos anos de dedicação e carreira de doutorado para ser construído. Espero que o COMPORTAMENTO seja o sinal de escalada de que precisamos ou a faísca que finalmente nos faz falar sobre como medir o progresso real como um campo.