Havia algo profundamente satisfatório sobre o ImageNet. Tinha um conjunto de treinamento bem curado. Um protocolo de teste claramente definido. Uma competição que reuniu os melhores pesquisadores. E uma tabela de classificação que gerou ResNets e ViTs, e, em última análise, mudou o campo para sempre. Então, a NLP seguiu. Não importa o quanto a OpenAI, a Anthropic e a xAI discordem, pelo menos concordam em uma coisa: benchmarking. MMLU, HLE, SWEBench - você não pode progredir até que consiga medi-lo. A robótica ainda não tem tal chamado unificador. Ninguém concorda em nada: hardware, tarefa, pontuação, motor de simulação ou ambiente do mundo real. Todos são SOTA, por definição, no benchmark que definem de forma improvisada para cada artigo. Do criador do ImageNet - BEHAVIOR tenta enfrentar o desafiador desafio de unificar o benchmarking de robótica em um motor de física reprodutível (Isaac Sim). O projeto começou antes de eu me formar no Stanford Vision Lab e levou muitos anos de dedicação e carreiras de doutorado para ser construído. Espero que o BEHAVIOR seja ou o sinal de escalada que precisamos, ou a faísca que finalmente nos faça falar sobre como medir o progresso real como um campo.