Testovali jsme, jak si autonomní agenti umělé inteligence vedou při skutečných softwarových úlohách z našeho nedávného RCT produktivity vývojářů. Zjistili jsme mezeru mezi algoritmickým bodováním a použitelností v reálném světě, která může pomoci vysvětlit, proč se benchmarky umělé inteligence zdají být odtržené od reality.