У ImageNet було щось надзвичайно задовільне. Він мав добре підібраний тренувальний набір. Чітко визначений протокол тестування. Конкурс, який згуртував найкращих дослідників. І таблиця лідерів, яка породила ResNets і ViTs, і в кінцевому підсумку змінила поле на краще. Потім пішло НЛП. Як би не розходилися OpenAI, Anthropic і xAI, вони принаймні сходяться в одному: бенчмаркінгу. MMLU, HLE, SWEBench - ви не зможете досягти прогресу, поки не зможете його виміряти. У робототехніці досі немає такого заклику до згуртування. Ніхто ні з чим не згоден: з апаратним забезпеченням, завданнями, оцінкою, движком симуляції або з реальним середовищем. Кожна людина, за визначенням, знаходиться на орієнтирі, який вони визначають на льоту для кожної статті. Від творця ImageNet - BEHAVIOR береться за складне завдання об'єднати порівняльний аналіз робототехніки на відтворюваному фізичному движку (Айзек Сім). Проект почався ще до того, як я закінчив Стенфордську лабораторію бачення, і на його створення пішло стільки років відданості та докторської кар'єри. Я сподіваюся, що ПОВЕДІНКА – це або сигнал для підйому на пагорб, який нам потрібен, або іскра, яка нарешті змусить нас говорити про те, як вимірювати реальний прогрес як поле.