Una cosa en la que pienso mucho es cómo la adopción comercial acelerada de la IA ha traído muchos estándares de la academia (como evaluaciones/benchmarks) que no son útiles para la persona o negocio promedio. Medir el uso en el mundo real de modelos y agentes va a ser cada vez más necesario. Para los agentes de codificación, datos más útiles serán cosas como PRs fusionados con éxito, costo por tarea, etc.