Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Havia algo profundamente satisfatório sobre o ImageNet. Tinha um conjunto de treinamento bem curado. Um protocolo de teste claramente definido. Uma competição que reuniu os melhores pesquisadores. E uma tabela de classificação que gerou ResNets e ViTs, e, em última análise, mudou o campo para sempre.
Então, a NLP seguiu. Não importa o quanto a OpenAI, a Anthropic e a xAI discordem, pelo menos concordam em uma coisa: benchmarking. MMLU, HLE, SWEBench - você não pode progredir até que consiga medi-lo.
A robótica ainda não tem tal chamado unificador. Ninguém concorda em nada: hardware, tarefa, pontuação, motor de simulação ou ambiente do mundo real. Todos são SOTA, por definição, no benchmark que definem de forma improvisada para cada artigo.
Do criador do ImageNet - BEHAVIOR tenta enfrentar o desafiador desafio de unificar o benchmarking de robótica em um motor de física reprodutível (Isaac Sim). O projeto começou antes de eu me formar no Stanford Vision Lab e levou muitos anos de dedicação e carreiras de doutorado para ser construído. Espero que o BEHAVIOR seja ou o sinal de escalada que precisamos, ou a faísca que finalmente nos faça falar sobre como medir o progresso real como um campo.
Top
Classificação
Favoritos