Wir haben getestet, wie autonome KI-Agenten bei realen Softwareaufgaben aus unserer aktuellen RCT zur Entwicklerproduktivität abschneiden. Wir haben eine Diskrepanz zwischen algorithmischer Bewertung und realer Benutzerfreundlichkeit festgestellt, die möglicherweise erklärt, warum KI-Benchmarks von der Realität disconnected erscheinen.