Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Wir haben den ersten Platz beim Berkeley AgentX-Gipfel in der Kategorie Benchmarks und Bewertungen gewonnen! Glückwunsch an das Team :)


9. Juli 2025
Woher wissen wir, was KI-Agenten in der Nähe des realen Einsatzes tatsächlich können? Zuverlässige Benchmarks sind entscheidend, aber agentische Benchmarks sind kaputt!
Beispiel: WebArena markiert "45+8 Minuten" in einer Dauerberechnungsaufgabe als richtig (echte Antwort: "63 Minuten"). Andere Benchmarks verschätzen die Kompetenz der Agenten um 1,6-100 %.
Warum sind die Evaluationsgrundlagen für agentische Systeme fragil? Siehe unten für Thread und Links
1/8
1,01K
Top
Ranking
Favoriten