DApp Store | Web3 Hub voor evenementen en spelletjes

Populaire onderwerpen

Er was iets diep bevredigends aan ImageNet. Het had een goed samengestelde trainingsset. Een duidelijk gedefinieerd testprotocol. Een competitie die de beste onderzoekers bijeenbracht. En een ranglijst die ResNets en ViTs voortbracht, en uiteindelijk het veld voor altijd veranderde. Toen volgde NLP. Hoeveel OpenAI, Anthropic en xAI ook van mening verschillen, ze zijn het in ieder geval over één ding eens: benchmarking. MMLU, HLE, SWEBench - je kunt geen vooruitgang boeken totdat je het kunt meten. Robotica heeft nog steeds zo'n oproep tot actie niet. Niemand is het ergens over eens: hardware, taak, scoring, simulatiemotor of echte omgeving. Iedereen is SOTA, per definitie, op de benchmark die ze ter plekke definiëren voor elk paper. Van de maker van ImageNet - BEHAVIOR probeert de ontmoedigende uitdaging aan te gaan om robotica-benchmarking te verenigen op een reproduceerbare fysica-engine (Isaac Sim). Het project begon voordat ik afstudeerde aan het Stanford Vision Lab, en kostte zoveel jaren van toewijding en PhD-carrières om op te bouwen. Ik hoop dat BEHAVIOR ofwel het signaal is dat we nodig hebben om de berg op te klimmen, of de vonk die ons eindelijk aan het praten krijgt over hoe we echte vooruitgang als veld kunnen meten.

Boven

Positie

Favorieten