Primer estudio a gran escala de agentes de IA que realmente están en producción. El bombo dice que los agentes están transformando todo. Los datos cuentan otra historia. Los investigadores encuestaron a 306 profesionales y realizaron 20 estudios de caso en profundidad en 26 dominios. Lo que encontraron desafía las suposiciones comunes sobre cómo se construyen los agentes de producción. La realidad: los agentes de producción son deliberadamente simples y muy limitados. 1) Patrones y fiabilidad - El 68% ejecuta como máximo 10 pasos antes de requerir intervención humana. - El 47% completa menos de 5 pasos. - El 70% depende de modelos comerciales sin ningún ajuste fino. - El 74% depende principalmente de la evaluación humana. Los equipos intercambian intencionadamente autonomía por fiabilidad. ¿Por qué las limitaciones? La fiabilidad sigue siendo el principal desafío sin resolver. Los profesionales no pueden verificar la corrección del agente a gran escala. Los benchmarks públicos rara vez se aplican a tareas de producción específicas de un dominio. El 75% de los equipos entrevistados evalúan sin referencias formales, confiando en pruebas A/B y en la retroalimentación directa de los usuarios. 2) Selección de modelos El patrón de selección de modelos sorprendió a los investigadores. 17 de 20 estudios de caso utilizan modelos fronterizos de código cerrado como Claude Sonnet 4, Claude Opus 4.1 y GPT o3. La adopción de código abierto es rara y está impulsada por restricciones específicas: cargas de trabajo de alto volumen donde los costes de inferencia se vuelven prohibitivos, o requisitos regulatorios que impiden compartir datos con proveedores externos. Para la mayoría de los equipos, los costes en tiempo de ejecución son insignificantes comparados con los expertos humanos que el agente mejora. 3) Marcos de agentes La adopción de marcos de referencia muestra una divergencia notable. El 61% de los encuestados utiliza frameworks de terceros como LangChain/LangGraph. Pero el 85% de los equipos entrevistados con despliegues en producción crean implementaciones personalizadas desde cero. La razón: los bucles de agentes centrales son sencillos de implementar con llamadas directas a la API. Los equipos prefieren andamios mínimos y diseñados específicamente en lugar de capas de abstracción, sobrecarga de dependencias. 4) Flujo de control del agente Las arquitecturas de producción prefieren flujos de trabajo estáticos predefinidos frente a la autonomía abierta. El 80% de los estudios de caso utilizan un flujo de control estructurado. Los agentes operan en espacios de acción bien definidos en lugar de explorar libremente los entornos. Solo un caso permitía la exploración sin restricciones, y ese sistema funciona exclusivamente en entornos sandboxeados con verificación rigurosa de CI/CD....