Nous avons testé comment les agents IA autonomes se comportent sur de réelles tâches logicielles issues de notre récent essai contrôlé randomisé sur la productivité des développeurs. Nous avons constaté un écart entre le scoring algorithmique et l'utilisabilité dans le monde réel, ce qui pourrait aider à expliquer pourquoi les benchmarks de l'IA semblent déconnectés de la réalité.