Am testat modul în care agenții AI autonomi se comportă pe sarcini software reale din recentul nostru RCT de productivitate a dezvoltatorilor. Am găsit un decalaj între scorul algoritmic și utilizarea în lumea reală care poate ajuta la explicarea de ce benchmark-urile AI se simt deconectate de realitate.