Testámos como os agentes de IA autónomos se comportam em tarefas de software reais do nosso recente RCT de produtividade de desenvolvedores. Descobrimos uma lacuna entre a pontuação algorítmica e a usabilidade no mundo real que pode ajudar a explicar por que os benchmarks de IA parecem desconectados da realidade.