Wir haben den ersten Platz beim Berkeley AgentX-Gipfel in der Kategorie Benchmarks und Bewertungen gewonnen! Glückwunsch an das Team :)
Daniel Kang
Daniel Kang9. Juli 2025
Woher wissen wir, was KI-Agenten in der Nähe des realen Einsatzes tatsächlich können? Zuverlässige Benchmarks sind entscheidend, aber agentische Benchmarks sind kaputt! Beispiel: WebArena markiert "45+8 Minuten" in einer Dauerberechnungsaufgabe als richtig (echte Antwort: "63 Minuten"). Andere Benchmarks verschätzen die Kompetenz der Agenten um 1,6-100 %. Warum sind die Evaluationsgrundlagen für agentische Systeme fragil? Siehe unten für Thread und Links 1/8
1,01K