Testasimme autonomisten tekoälyagenttien suoriutumista todellisissa ohjelmistotehtävissä äskettäisen kehittäjien tuottavuuden RCT:n avulla. Löysimme algoritmisen pisteytyksen ja todellisen käytettävyyden välisen kuilun, joka voi auttaa selittämään, miksi tekoälyn vertailuarvot tuntuvat irrallaan todellisuudesta.