Testamos o desempenho dos agentes autônomos de IA em tarefas reais de software em nosso recente RCT de produtividade do desenvolvedor. Encontramos uma lacuna entre a pontuação algorítmica e a usabilidade do mundo real que pode ajudar a explicar por que os benchmarks de IA parecem desconectados da realidade.