Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Die erste großangelegte Studie über KI-Agenten, die tatsächlich in der Produktion eingesetzt werden.
Der Hype besagt, dass Agenten alles verändern. Die Daten erzählen eine andere Geschichte.
Forscher befragten 306 Praktiker und führten 20 eingehende Fallstudien in 26 Bereichen durch. Was sie fanden, stellt gängige Annahmen darüber in Frage, wie Produktionsagenten aufgebaut sind.
Die Realität: Produktionsagenten sind absichtlich einfach und stark eingeschränkt.
1) Muster & Zuverlässigkeit
- 68% führen höchstens 10 Schritte aus, bevor menschliches Eingreifen erforderlich ist.
- 47% schließen weniger als 5 Schritte ab.
- 70% verlassen sich auf vorgefertigte Modelle ohne Feinabstimmung.
- 74% sind hauptsächlich auf menschliche Bewertungen angewiesen.
Teams tauschen absichtlich Autonomie gegen Zuverlässigkeit ein.
Warum die Einschränkungen? Zuverlässigkeit bleibt die größte ungelöste Herausforderung. Praktiker können die Korrektheit von Agenten nicht in großem Maßstab überprüfen. Öffentliche Benchmarks gelten selten für domänenspezifische Produktionsaufgaben. 75% der befragten Teams bewerten ohne formale Benchmarks und verlassen sich stattdessen auf A/B-Tests und direktes Nutzerfeedback.
2) Modellauswahl
Das Muster der Modellauswahl überraschte die Forscher. 17 von 20 Fallstudien verwenden geschlossene Frontier-Modelle wie Claude Sonnet 4, Claude Opus 4.1 und GPT o3. Die Verwendung von Open-Source-Modellen ist selten und wird durch spezifische Einschränkungen getrieben: Hochvolumen-Workloads, bei denen die Inferenzkosten prohibitiv werden, oder regulatorische Anforderungen, die das Teilen von Daten mit externen Anbietern verhindern. Für die meisten Teams sind die Betriebskosten im Vergleich zu den menschlichen Experten, die der Agent unterstützt, vernachlässigbar.
3) Agenten-Frameworks
Die Verwendung von Frameworks zeigt eine auffällige Divergenz. 61% der Umfrageteilnehmer verwenden Drittanbieter-Frameworks wie LangChain/LangGraph. Aber 85% der befragten Teams mit Produktionsimplementierungen erstellen benutzerdefinierte Implementierungen von Grund auf. Der Grund: Die Kernagentenschleifen sind einfach mit direkten API-Aufrufen zu implementieren. Teams bevorzugen minimale, zweckgebundene Strukturen gegenüber Abhängigkeitsschwellungen und Abstraktionsschichten.
4) Kontrollfluss von Agenten
Produktionsarchitekturen bevorzugen vordefinierte statische Workflows gegenüber offenen Autonomien. 80% der Fallstudien verwenden strukturierten Kontrollfluss. Agenten arbeiten innerhalb gut definierter Aktionsräume, anstatt frei Umgebungen zu erkunden. Nur ein Fall erlaubte uneingeschränkte Erkundung, und dieses System läuft ausschließlich in sandboxed Umgebungen mit rigoroser CI/CD-Überprüfung....

Top
Ranking
Favoriten

