Una cosa a cui penso spesso è come l'adozione commerciale dell'AI sia stata estremamente accelerata e abbia portato con sé molti standard accademici (come valutazioni/benchmark) che non sono utili per la persona o l'azienda media. Misurare l'uso reale di modelli e agenti diventerà sempre più necessario. Per gli agenti di codifica, dati più utili saranno cose come PR fusionati con successo, costo per compito, ecc.