كان هناك شيء مرض للغاية حول ImageNet. كان لديها مجموعة تدريب منسقة جيدا. بروتوكول اختبار محدد بوضوح. مسابقة جمعت أفضل الباحثين. ولوحة المتصدرين التي أنتجت ResNets و ViTs ، وغيرت المجال في النهاية إلى الأبد. ثم تبع ذلك البرمجة اللغوية العصبية. بغض النظر عن مدى اختلاف OpenAI و Anthropic و xAI ، فإنهم يتفقون على الأقل على شيء واحد: المقارنة المعيارية. MMLU و HLE و SWEBench - لا يمكنك إحراز تقدم حتى تتمكن من قياسه. لا تزال الروبوتات لا تملك مثل هذه المكالمة الشاملة. لا أحد يتفق على أي شيء: الأجهزة ، أو المهمة ، أو التسجيل ، أو محرك المحاكاة ، أو بيئة العالم الحقيقي. الجميع هو SOTA ، بحكم تعريفه ، على المعيار الذي يحدده بسرعة لكل ورقة. من صانع ImageNet - يأخذ BEHAVIOR طعنة في التحدي الشاق المتمثل في توحيد معايير الروبوتات على محرك فيزيائي قابل للتكرار (إسحاق سيم). بدأ المشروع قبل تخرجي من مختبر ستانفورد للرؤية ، واستغرق سنوات عديدة من التفاني ووظائف الدكتوراه لبناءه. آمل أن يكون السلوك إما إشارة تسلق التلال التي نحتاجها ، أو الشرارة التي تجعلنا نتحدث أخيرا عن كيفية قياس التقدم الحقيقي كحقل.