DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Havia algo profundamente satisfatório no ImageNet. Ele tinha um conjunto de treinamento bem organizado. Um protocolo de teste claramente definido. Uma competição que reuniu os melhores pesquisadores. E uma tabela de classificação que gerou ResNets e ViTs e, finalmente, mudou o campo para sempre. Então a PNL seguiu. Não importa o quanto OpenAI, Anthropic e xAI discordem, eles pelo menos concordam em uma coisa: benchmarking. MMLU, HLE, SWEBench - você não pode progredir até que seja capaz de medi-lo. A robótica ainda não tem esse chamado de mobilização. Ninguém concorda com nada: hardware, tarefa, pontuação, mecanismo de simulação ou ambiente do mundo real. Todo mundo é SOTA, por definição, no benchmark que define em tempo real para cada artigo. Do criador do ImageNet - BEHAVIOR enfrenta o desafio assustador de unificar o benchmarking robótico em um mecanismo de física reproduzível (Isaac Sim). O projeto começou antes de eu me formar no Stanford Vision Lab e levou muitos anos de dedicação e carreira de doutorado para ser construído. Espero que o COMPORTAMENTO seja o sinal de escalada de que precisamos ou a faísca que finalmente nos faz falar sobre como medir o progresso real como um campo.

Melhores

Classificação

Favoritos