Na ImageNetu bylo něco hluboce uspokojivého. Měla dobře sestavenou tréninkovou sadu. Jasně definovaný testovací protokol. Soutěž, která shromáždila nejlepší výzkumníky. A žebříček, který zplodil ResNety a ViT a nakonec změnil pole k lepšímu. Pak následovalo NLP. Bez ohledu na to, jak moc se OpenAI, Anthropic a xAI neshodnou, shodnou se alespoň na jedné věci: benchmarkingu. MMLU, HLE, SWEBench - nemůžete dosáhnout pokroku, dokud to nebudete schopni změřit. Robotika stále nemá takovou výzvu k boji. Nikdo se neshodne na ničem: na hardwaru, úkolu, bodování, simulačním enginu nebo reálném prostředí. Každý je ze své podstaty SOTA na základě měřítka, které si definuje za běhu pro každý článek. Od výrobce ImageNet - BEHAVIOR se pouští do skličující výzvy sjednotit robotické benchmarking na reprodukovatelném fyzikálním enginu (Isaac Sim). Projekt začal ještě předtím, než jsem absolvovala Stanford Vision Lab, a trvalo mi mnoho let odhodlání a doktorandské kariéry. Doufám, že CHOVÁNÍ je buď signálem, který potřebujeme, nebo jiskrou, která nás konečně přiměje mluvit o tom, jak měřit skutečný pokrok jako obor.