Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Había algo profundamente satisfactorio en ImageNet. Tenía un conjunto de entrenamiento bien curado. Un protocolo de prueba claramente definido. Una competencia que reunió a los mejores investigadores. Y una tabla de clasificación que dio origen a ResNets y ViTs, y que, en última instancia, cambió el campo para siempre.
Luego siguió el NLP. No importa cuánto discrepen OpenAI, Anthropic y xAI, al menos están de acuerdo en una cosa: la evaluación. MMLU, HLE, SWEBench - no puedes avanzar hasta que seas capaz de medirlo.
La robótica aún no tiene tal llamado unificador. Nadie está de acuerdo en nada: hardware, tarea, puntuación, motor de simulación o entorno del mundo real. Todos son SOTA, por definición, en el benchmark que definen sobre la marcha para cada artículo.
Del creador de ImageNet - BEHAVIOR intenta abordar el desafiante reto de unificar la evaluación de la robótica en un motor de física reproducible (Isaac Sim). El proyecto comenzó antes de que me graduara del Stanford Vision Lab, y tomó tantos años de dedicación y carreras de doctorado para construirlo. Espero que BEHAVIOR sea ya sea la señal de escalada que necesitamos, o la chispa que finalmente nos haga hablar sobre cómo medir el verdadero progreso como campo.
Parte superior
Clasificación
Favoritos