Vi testet hvordan autonome AI-agenter presterer på virkelige programvareoppgaver fra vår nylige utviklerproduktivitets-RCT. Vi fant et gap mellom algoritmisk scoring og brukervennlighet i den virkelige verden som kan bidra til å forklare hvorfor AI-benchmarks føles frakoblet virkeligheten.