DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Había algo profundamente satisfactorio en ImageNet. Tenía un conjunto de entrenamiento bien curado. Un protocolo de prueba claramente definido. Una competencia que reunió a los mejores investigadores. Y una tabla de clasificación que dio origen a ResNets y ViTs, y que, en última instancia, cambió el campo para siempre. Luego siguió el NLP. No importa cuánto discrepen OpenAI, Anthropic y xAI, al menos están de acuerdo en una cosa: la evaluación. MMLU, HLE, SWEBench - no puedes avanzar hasta que seas capaz de medirlo. La robótica aún no tiene tal llamado unificador. Nadie está de acuerdo en nada: hardware, tarea, puntuación, motor de simulación o entorno del mundo real. Todos son SOTA, por definición, en el benchmark que definen sobre la marcha para cada artículo. Del creador de ImageNet - BEHAVIOR intenta abordar el desafiante reto de unificar la evaluación de la robótica en un motor de física reproducible (Isaac Sim). El proyecto comenzó antes de que me graduara del Stanford Vision Lab, y tomó tantos años de dedicación y carreras de doctorado para construirlo. Espero que BEHAVIOR sea ya sea la señal de escalada que necesitamos, o la chispa que finalmente nos haga hablar sobre cómo medir el verdadero progreso como campo.

Parte superior

Clasificación

Favoritos