ImageNetには、深い満足感がありました。よく厳選されたトレーニングセットがありました。明確に定義されたテストプロトコル。最高の研究者が結集したコンテスト。そして、ResNets と ViT を生み出し、最終的に分野を永久に変えたリーダーボード。 その後、NLPが続きました。OpenAI、Anthropic、xAI がどれほど意見が合わなくても、少なくともベンチマークという 1 つの点については同意しています。MMLU、HLE、SWEBench - 測定できるようになるまで進歩することはできません。 ロボット工学にはまだそのような呼びかけはありません。ハードウェア、タスク、スコアリング、シミュレーション エンジン、現実世界の環境など、誰も同意しません。誰もが、定義上、各論文に対してその場で定義したベンチマークに基づいてSOTAです。 ImageNet のメーカーから - BEHAVIOR は、再現可能な物理エンジン (Isaac Sim) でロボット工学のベンチマークを統合するという困難な課題に挑戦します。このプロジェクトは、私がスタンフォード・ビジョン・ラボを卒業する前に始まり、長年の献身と博士号取得のキャリアを費やして構築しました。BEHAVIORが、私たちが必要とする坂登りのシグナルになるか、分野としての真の進歩を測定する方法について最終的に話し合うきっかけになることを願っています。