بصفتنا وكلاء الذكاء الاصطناعي بالقرب من الاستخدام في العالم الحقيقي ، كيف نعرف ما يمكنهم فعله بالفعل؟ المعايير الموثوقة مهمة ولكن المعايير الوكيلة مكسورة! مثال: يضع WebArena علامة "45+8 دقائق" في مهمة حساب المدة على أنها صحيحة (الإجابة الحقيقية: "63 دقيقة"). تخطئ المعايير الأخرى في تقدير كفاءة الوكيل بنسبة 1.6-100٪. لماذا تعتبر أسس التقييم للأنظمة الوكيلة هشة؟ انظر أدناه للحصول على الموضوع والروابط 1/8
تختلف التقييمات الوكيلة عن معايير التعلم الآلي التقليدية من حيث صياغة المهام والنتائج. غالبا ما تعتمد المعايير الوكيلة على أجهزة المحاكاة الهشة (مواقع الألعاب وقواعد البيانات) التي يحتمل أن تكون بها أخطاء واختصارات يمكن أن تحرف النتائج. علاوة على ذلك ، لا تحتوي نتائج المهام للمعايير الوكيلة على تسميات "ذهبية" ثابتة وغالبا ما تحتاج إلى الحكم على الإجابات غير المنظمة (التعليمات البرمجية ، واستدعاءات واجهة برمجة التطبيقات ، والنصوص الطويلة). 3/8
ولمواجهة هذه التحديات، ينبغي أن تهدف المعايير المرجعية للعوامل إلى ضمان العلاقة بين نتيجة التقييم الإيجابية وقدرة وكلاء الذكاء الاصطناعي المستهدفين. نقوم بتحليل هذا الهدف إلى معيارين أساسيين للصلاحية: 1. صلاحية المهمة: المهمة قابلة للحل إذا وفقط إذا كان الوكيل يمتلك القدرة المستهدفة. 2. صلاحية النتيجة: تكون نتيجة التقييم إيجابية إذا تم حل المهمة وفقط إذا تم حلها. 4/8
استنادا إلى 17 معيارا شائعا (على سبيل المثال ، SWE-bench و OSWorld و TAU-bench وما إلى ذلك) ، نقوم بتطوير قائمة مرجعية معيارية وكيلة مكونة من 43 عنصرا (ABC) لتحديد مدى استيفاء المعيار الوكيل لصلاحية المهمة والنتائج بسرعة ABC: 5/8
قمنا بتطبيق ABC على 10 معايير مؤثرة تم استخدامها لتقييم o3 و Gemini 2.5 و Sonnet 4. فيما يلي نظرة عامة على النتائج التي توصلنا إليها: 1. 7/10 معايير تفشل في صلاحية النتيجة 2. 7/10 تحتوي على اختصارات مخفية / مهام غير قابلة للحل 3. فقط 2/10 تكشف عن المشكلات المعروفة تنزعج. سنصدر قريبا المزيد من التفاصيل والإصلاحات الكمية للمشكلات التي تم تحديدها! 6/8
تمكن ABC كلا من مطوري المعايير والنماذج من اكتشاف العيوب وإصلاحها - قبل النتائج الرئيسية. استكشف قائمة التحقق الكاملة والأمثلة والمساهمة عبر موقعنا على الإنترنت ومستودع GitHub لبناء معايير تستحق الذكاء الاصطناعي الحدودي معا. 7/8
هذا عمل مشترك مع @maxYuxuanZhu و @yadapruksachatk وأشخاص آخرين من ستانفورد وبيركلي وييل وبرينستون ومعهد ماساتشوستس للتكنولوجيا وترانسلوس وML Commons وأمازون والمملكة المتحدة AISI. 8/8
‏‎21.98‏K