DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Det var något djupt tillfredsställande med ImageNet. Den hade ett väl utvalt träningsset. Ett tydligt definierat testprotokoll. En tävling som samlade de bästa forskarna. Och en topplista som gav upphov till ResNets och ViTs, och som i slutändan förändrade fältet för gott. Sedan följde NLP. Oavsett hur mycket OpenAI, Anthropic och xAI är oense, är de åtminstone överens om en sak: benchmarking. MMLU, HLE, SWEBench - du kan inte göra framsteg förrän du kan mäta det. Robotiken har fortfarande inte fått någon sådan stridskraft. Ingen är överens om någonting: hårdvara, uppgift, poängsättning, simuleringsmotor eller verklig miljö. Alla är SOTA, per definition, på det riktmärke som de definierar i farten för varje papper. Från tillverkaren av ImageNet - BEHAVIOR tar sig an den skrämmande utmaningen att förena robotbenchmarking på en reproducerbar fysikmotor (Isaac Sim). Projektet startade innan jag tog examen från Stanford Vision Lab, och det tog så många år av engagemang och doktorandkarriärer att bygga upp. Jag hoppas att BEHAVIOR antingen är den signal vi behöver, eller den gnista som äntligen får oss att prata om hur man mäter verkliga framsteg som ett område.

Topp

Rankning

Favoriter