We hebben getest hoe autonome AI-agenten presteren op echte softwaretaken uit onze recente RCT voor ontwikkelaarsproductiviteit. We hebben een kloof gevonden tussen algoritmische scoring en de bruikbaarheid in de echte wereld, wat kan helpen verklaren waarom AI-benchmarks losgekoppeld aanvoelen van de realiteit.