Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
We hebben de eerste plaats gewonnen op de Berkeley AgentX-top voor het benchmarks en evaluatiestraject! Gefeliciteerd aan het team :)


9 jul 2025
Hoe weten we wat ze daadwerkelijk kunnen doen, nu AI-agenten in de buurt van real-world worden gebruikt? Betrouwbare benchmarks zijn van cruciaal belang, maar agentische benchmarks zijn verbroken!
Voorbeeld: WebArena markeert "45+8 minuten" op een duurberekeningstaak als correct (echt antwoord: "63 minuten"). Andere benchmarks schatten de competentie van agenten met 1,6-100% verkeerd in.
Waarom zijn de evaluatiefundamenten voor agentische systemen kwetsbaar? Zie hieronder voor thread en links
1/8
1,01K
Boven
Positie
Favorieten