Había algo profundamente satisfactorio en ImageNet. Tenía un conjunto de entrenamiento bien seleccionado. Un protocolo de prueba claramente definido. Una competencia que reunió a los mejores investigadores. Y una tabla de clasificación que generó ResNets y ViTs, y finalmente cambió el campo para siempre. Luego siguió la PNL. No importa cuánto estén en desacuerdo OpenAI, Anthropic y xAI, al menos están de acuerdo en una cosa: la evaluación comparativa. MMLU, HLE, SWEBench: no puede progresar hasta que pueda medirlo. La robótica todavía no tiene tal llamada de atención. Nadie está de acuerdo en nada: hardware, tarea, puntuación, motor de simulación o entorno del mundo real. Todo el mundo es SOTA, por definición, en el punto de referencia que definen sobre la marcha para cada artículo. Del creador de ImageNet: BEHAVIOR intenta el abrumador desafío de unificar la evaluación comparativa de la robótica en un motor de física reproducible (Isaac Sim). El proyecto comenzó antes de que me graduara de Stanford Vision Lab, y me tomó muchos años de dedicación y carreras de doctorado construirlo. Espero que BEHAVIOR sea la señal de escalada que necesitamos, o la chispa que finalmente nos haga hablar sobre cómo medir el progreso real como campo.