Det var noe dypt tilfredsstillende med ImageNet. Den hadde et godt kuratert treningssett. En klart definert testprotokoll. En konkurranse som samlet de beste forskerne. Og en ledertavle som skapte ResNets og ViT-er, og til slutt endret feltet for godt. Så fulgte NLP. Uansett hvor mye OpenAI, Anthropic og xAI er uenige, er de i det minste enige om én ting: benchmarking. MMLU, HLE, SWEBench - du kan ikke gjøre fremskritt før du er i stand til å måle det. Robotikk har fortsatt ikke en slik oppfordring. Ingen er enige om noe: maskinvare, oppgave, poengsum, simuleringsmotor eller virkelige omgivelser. Alle er SOTA, per definisjon, på referansen de definerer i farten for hver artikkel. Fra skaperen av ImageNet - BEHAVIOR tar et stikk på den skremmende utfordringen med å forene robotikk-benchmarking på en reproduserbar fysikkmotor (Isaac Sim). Prosjektet startet før jeg ble uteksaminert fra Stanford Vision Lab, og tok så mange år med dedikasjon og doktorgradskarrierer å bygge. Jeg håper ATFERD enten er bakkeklatringssignalet vi trenger, eller gnisten som endelig får oss til å snakke om hvordan vi kan måle reell fremgang som et felt.