DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Il y avait quelque chose de profondément satisfaisant dans ImageNet. Il avait un ensemble d'entraînement bien organisé. Un protocole de test clairement défini. Une compétition qui rassemblait les meilleurs chercheurs. Et un classement qui a engendré des ResNets et des ViTs, et a finalement changé le domaine pour de bon. Puis le NLP a suivi. Peu importe combien OpenAI, Anthropic et xAI sont en désaccord, ils s'accordent au moins sur une chose : l'évaluation. MMLU, HLE, SWEBench - vous ne pouvez pas progresser tant que vous n'êtes pas en mesure de le mesurer. La robotique n'a toujours pas un tel appel à l'unité. Personne n'est d'accord sur quoi que ce soit : matériel, tâche, notation, moteur de simulation ou environnement réel. Tout le monde est SOTA, par définition, sur le benchmark qu'il définit à la volée pour chaque article. Du créateur d'ImageNet - BEHAVIOR s'attaque au défi redoutable d'unifier l'évaluation en robotique sur un moteur physique reproductible (Isaac Sim). Le projet a commencé avant que je ne termine mes études au Stanford Vision Lab, et a nécessité tant d'années de dévouement et de carrières de doctorat pour être construit. J'espère que BEHAVIOR est soit le signal de montée que nous avons besoin, soit l'étincelle qui nous fera enfin parler de la manière de mesurer le véritable progrès en tant que domaine.

Meilleurs

Classement

Favoris