DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

C'era qualcosa di profondamente soddisfacente in ImageNet. Aveva un set di addestramento ben curato. Un protocollo di test chiaramente definito. Una competizione che ha radunato i migliori ricercatori. E una classifica che ha generato ResNets e ViTs, cambiando infine il campo per sempre. Poi è seguito il NLP. Non importa quanto OpenAI, Anthropic e xAI non siano d'accordo, almeno concordano su una cosa: il benchmarking. MMLU, HLE, SWEBench - non puoi fare progressi finché non sei in grado di misurarli. La robotica non ha ancora un tale richiamo. Nessuno è d'accordo su nulla: hardware, compito, punteggio, motore di simulazione o ambiente reale. Ognuno è SOTA, per definizione, sul benchmark che definisce al volo per ogni articolo. Dal creatore di ImageNet - BEHAVIOR affronta la sfida scoraggiante di unificare il benchmarking della robotica su un motore fisico riproducibile (Isaac Sim). Il progetto è iniziato prima che mi laureassi allo Stanford Vision Lab e ha richiesto tanti anni di dedizione e carriere di dottorato per essere costruito. Spero che BEHAVIOR sia o il segnale di scalata di cui abbiamo bisogno, o la scintilla che finalmente ci fa parlare di come misurare i veri progressi come campo.

Principali

Ranking

Preferiti