Мы протестировали, как автономные AI-агенты справляются с реальными программными задачами из нашего недавнего RCT по производительности разработчиков. Мы обнаружили разрыв между алгоритмическим оцениванием и реальной удобством использования, что может помочь объяснить, почему AI-бенчмарки кажутся disconnected от реальности.