We hebben de eerste plaats gewonnen op de Berkeley AgentX-top voor het benchmarks en evaluatiestraject! Gefeliciteerd aan het team :)
Daniel Kang
Daniel Kang9 jul 2025
Hoe weten we wat ze daadwerkelijk kunnen doen, nu AI-agenten in de buurt van real-world worden gebruikt? Betrouwbare benchmarks zijn van cruciaal belang, maar agentische benchmarks zijn verbroken! Voorbeeld: WebArena markeert "45+8 minuten" op een duurberekeningstaak als correct (echt antwoord: "63 minuten"). Andere benchmarks schatten de competentie van agenten met 1,6-100% verkeerd in. Waarom zijn de evaluatiefundamenten voor agentische systemen kwetsbaar? Zie hieronder voor thread en links 1/8
1,01K