Kami menguji kinerja agen AI otonom pada tugas perangkat lunak nyata dari RCT produktivitas pengembang terbaru kami. Kami menemukan kesenjangan antara penilaian algoritmik dan kegunaan dunia nyata yang dapat membantu menjelaskan mengapa tolok ukur AI terasa terputus dari kenyataan.