Probamos cómo los agentes de IA autónomos se desempeñan en tareas de software reales de nuestro reciente RCT sobre productividad de desarrolladores. Encontramos una brecha entre la puntuación algorítmica y la usabilidad en el mundo real que puede ayudar a explicar por qué los benchmarks de IA se sienten desconectados de la realidad.