Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Første storskala studie av AI-agenter som faktisk kjører i produksjon.
Hypen sier at agenter forvandler alt. Dataene forteller en annen historie.
Forskerne undersøkte 306 praktikere og gjennomførte 20 dyptgående casestudier på tvers av 26 domener. Det de fant utfordrer vanlige antakelser om hvordan produksjonsagenter bygges.
Realiteten: produksjonsagenter er bevisst enkle og strengt begrensede.
1) Mønstre og pålitelighet
- 68 % utfører maksimalt 10 steg før menneskelig inngripen er nødvendig.
- 47 % fullfører færre enn 5 steg.
- 70 % baserer seg på å sende standardmodeller uten noen finjustering.
- 74 % er hovedsakelig avhengige av menneskelig evaluering.
Lagene bytter bevisst autonomi mot pålitelighet.
Hvorfor begrensningene? Pålitelighet er fortsatt den største uløste utfordringen. Utøvere kan ikke verifisere agentens korrekthet i stor skala. Offentlige referansepunkter gjelder sjelden for domenespesifikke produksjonsoppgaver. 75 % av de intervjuede teamene evaluerer uten formelle referansepunkter, og baserer seg i stedet på A/B-testing og direkte tilbakemelding fra brukerne.
2) Modellvalg
Mønsteret for modellvalg overrasket forskerne. 17 av 20 casestudier bruker lukkede frontmodeller som Claude Sonnet 4, Claude Opus 4.1 og GPT o3. Adopsjon av åpen kildekode er sjelden og drevet av spesifikke begrensninger: arbeidsmengder med høyt volum hvor slutningskostnadene blir for høye, eller regulatoriske krav som hindrer datadeling med eksterne leverandører. For de fleste team er driftskostnadene neglisjerbare sammenlignet med de menneskelige ekspertene agenten forsterker.
3) Agentrammeverk
Innføring av rammeverk viser en markant forskjell. 61 % av respondentene bruker tredjepartsrammeverk som LangChain/LangGraph. Men 85 % av de intervjuede teamene med produksjonsdistribusjoner bygger tilpassede implementasjoner fra bunnen av. Årsaken: kjerneagentløkker er enkle å implementere med direkte API-kall. Team foretrekker minimale, spesialbygde stillaser fremfor lag med oppblåst avhengighet og abstraksjon.
4) Agent Control Flow
Produksjonsarkitekturer favoriserer forhåndsdefinerte statiske arbeidsflyter fremfor åpen autonomi. 80 % av casestudiene bruker strukturert kontrollflyt. Agentene opererer innenfor veldefinerte handlingsrom i stedet for å utforske miljøene fritt. Bare ett tilfelle tillot ubegrenset utforskning, og det systemet kjører utelukkende i sandkassemiljøer med grundig CI/CD-verifisering....

Topp
Rangering
Favoritter

