Było coś głęboko satysfakcjonującego w ImageNet. Miał dobrze dobrany zbiór treningowy. Wyraźnie zdefiniowany protokół testowy. Konkurs, który zjednoczył najlepszych badaczy. I tabela wyników, która zrodziła ResNety i ViTy, a ostatecznie na zawsze zmieniła tę dziedzinę. Potem przyszło NLP. Niezależnie od tego, jak bardzo OpenAI, Anthropic i xAI się nie zgadzają, przynajmniej w jednej kwestii się zgadzają: benchmarking. MMLU, HLE, SWEBench - nie możesz poczynić postępów, dopóki nie będziesz w stanie tego zmierzyć. Robotyka wciąż nie ma takiego wezwania do działania. Nikt się w niczym nie zgadza: sprzęt, zadanie, ocena, silnik symulacyjny czy rzeczywiste środowisko. Każdy jest SOTA, z definicji, w benchmarku, który definiuje na bieżąco dla każdego artykułu. Od twórcy ImageNet - BEHAVIOR podejmuje się trudnego wyzwania zjednoczenia benchmarkingu robotyki na reprodukowalnym silniku fizycznym (Isaac Sim). Projekt rozpoczął się zanim ukończyłem Stanford Vision Lab i wymagał wielu lat poświęcenia oraz karier doktoranckich, aby go zbudować. Mam nadzieję, że BEHAVIOR jest albo sygnałem do wspinania się na wzgórze, którego potrzebujemy, albo iskrą, która w końcu skłoni nas do rozmowy o tym, jak mierzyć rzeczywisty postęp w tej dziedzinie.