Có điều gì đó thật sự thỏa mãn về ImageNet. Nó có một bộ dữ liệu huấn luyện được chọn lọc kỹ lưỡng. Một giao thức kiểm tra được xác định rõ ràng. Một cuộc thi quy tụ những nhà nghiên cứu giỏi nhất. Và một bảng xếp hạng đã sinh ra ResNets và ViTs, và cuối cùng đã thay đổi lĩnh vực này mãi mãi. Sau đó, NLP theo sau. Dù OpenAI, Anthropic và xAI có bất đồng đến đâu, ít nhất họ cũng đồng ý về một điều: chuẩn hóa. MMLU, HLE, SWEBench - bạn không thể tiến bộ cho đến khi bạn có thể đo lường nó. Robotics vẫn chưa có một tiếng gọi nào như vậy. Không ai đồng ý về bất cứ điều gì: phần cứng, nhiệm vụ, điểm số, động cơ mô phỏng, hay môi trường thực tế. Mọi người đều là SOTA, theo định nghĩa, trên bảng chuẩn mà họ định nghĩa ngay tại chỗ cho mỗi bài báo. Từ người sáng tạo ImageNet - BEHAVIOR đang cố gắng giải quyết thách thức đáng sợ của việc thống nhất chuẩn hóa robotics trên một động cơ vật lý có thể tái tạo (Isaac Sim). Dự án bắt đầu trước khi tôi tốt nghiệp từ Stanford Vision Lab, và đã mất rất nhiều năm cống hiến và sự nghiệp Tiến sĩ để xây dựng. Tôi hy vọng BEHAVIOR sẽ là tín hiệu leo đồi mà chúng ta cần, hoặc là ngọn lửa cuối cùng khiến chúng ta bắt đầu nói về cách đo lường tiến bộ thực sự trong lĩnh vực này.