Eerste grootschalige studie van AI-agenten die daadwerkelijk in productie draaien. De hype zegt dat agenten alles transformeren. De data vertelt een ander verhaal. Onderzoekers ondervroegen 306 praktijkmensen en voerden 20 diepgaande casestudies uit in 26 domeinen. Wat ze vonden, daagt de gangbare aannames uit over hoe productieagenten worden gebouwd. De realiteit: productieagenten zijn opzettelijk eenvoudig en strak beperkt. 1) Patronen & Betrouwbaarheid - 68% voert maximaal 10 stappen uit voordat menselijke tussenkomst nodig is. - 47% voltooit minder dan 5 stappen. - 70% vertrouwt op het aansteken van standaardmodellen zonder enige fine-tuning. - 74% is voornamelijk afhankelijk van menselijke evaluatie. Teams ruilen opzettelijk autonomie in voor betrouwbaarheid. Waarom de beperkingen? Betrouwbaarheid blijft de grootste onopgeloste uitdaging. Praktijkmensen kunnen de correctheid van agenten niet op grote schaal verifiëren. Publieke benchmarks zijn zelden van toepassing op domeinspecifieke productietaken. 75% van de ondervraagde teams evalueert zonder formele benchmarks en vertrouwt in plaats daarvan op A/B-testen en directe gebruikersfeedback. 2) Modelselectie Het patroon van modelselectie verraste de onderzoekers. 17 van de 20 casestudies gebruiken gesloten-source grensmodellen zoals Claude Sonnet 4, Claude Opus 4.1 en GPT o3. De adoptie van open-source is zeldzaam en wordt gedreven door specifieke beperkingen: workloads met een hoog volume waarbij de kosten voor inferentie onbetaalbaar worden, of regelgevende vereisten die het delen van gegevens met externe aanbieders verhinderen. Voor de meeste teams zijn de runtime-kosten verwaarloosbaar in vergelijking met de menselijke experts die de agent aanvult. 3) Agentframeworks De adoptie van frameworks toont een opvallende divergentie. 61% van de respondenten van de enquête gebruikt derde-partij frameworks zoals LangChain/LangGraph. Maar 85% van de ondervraagde teams met productie-implementaties bouwt aangepaste implementaties vanaf nul. De reden: kernagentloops zijn eenvoudig te implementeren met directe API-aanroepen. Teams geven de voorkeur aan minimale, doelgerichte steigers boven afhankelijkheidsbloat en abstractielaag. 4) Agentcontroleflow Productiearchitecturen geven de voorkeur aan vooraf gedefinieerde statische workflows boven open-ended autonomie. 80% van de casestudies gebruikt gestructureerde controleflow. Agenten opereren binnen goed afgebakende actieruimtes in plaats van vrij om omgevingen te verkennen. Slechts één geval stond onbeperkte verkenning toe, en dat systeem draait uitsluitend in sandbox-omgevingen met strikte CI/CD-verificatie....