فزنا بالمركز الأول في قمة Berkeley AgentX لمسار المعايير والتقييمات! تهانينا للفريق :)
Daniel Kang
Daniel Kang‏9 يوليو 2025
بصفتنا وكلاء الذكاء الاصطناعي بالقرب من الاستخدام في العالم الحقيقي ، كيف نعرف ما يمكنهم فعله بالفعل؟ المعايير الموثوقة مهمة ولكن المعايير الوكيلة مكسورة! مثال: يضع WebArena علامة "45+8 دقائق" في مهمة حساب المدة على أنها صحيحة (الإجابة الحقيقية: "63 دقيقة"). تخطئ المعايير الأخرى في تقدير كفاءة الوكيل بنسبة 1.6-100٪. لماذا تعتبر أسس التقييم للأنظمة الوكيلة هشة؟ انظر أدناه للحصول على الموضوع والروابط 1/8
‏‎1.02‏K