Vi testade hur autonoma AI-agenter presterar på verkliga programvaruuppgifter från vår senaste RCT för utvecklarproduktivitet. Vi fann en klyfta mellan algoritmisk poängsättning och användbarhet i den verkliga världen som kan hjälpa till att förklara varför AI-benchmarks känns bortkopplade från verkligheten.