المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
فزنا بالمركز الأول في قمة Berkeley AgentX لمسار المعايير والتقييمات! تهانينا للفريق :)


9 يوليو 2025
بصفتنا وكلاء الذكاء الاصطناعي بالقرب من الاستخدام في العالم الحقيقي ، كيف نعرف ما يمكنهم فعله بالفعل؟ المعايير الموثوقة مهمة ولكن المعايير الوكيلة مكسورة!
مثال: يضع WebArena علامة "45+8 دقائق" في مهمة حساب المدة على أنها صحيحة (الإجابة الحقيقية: "63 دقيقة"). تخطئ المعايير الأخرى في تقدير كفاءة الوكيل بنسبة 1.6-100٪.
لماذا تعتبر أسس التقييم للأنظمة الوكيلة هشة؟ انظر أدناه للحصول على الموضوع والروابط
1/8
1.02K
الأفضل
المُتصدِّرة
التطبيقات المفضلة