Vi vant førsteplassen på Berkeley AgentX-toppmøtet for benchmarks og evalueringssporet! Gratulerer til teamet :)
Daniel Kang
Daniel Kang9. juli 2025
Når AI-agenter nærmer seg bruk i den virkelige verden, hvordan vet vi hva de faktisk kan gjøre? Pålitelige benchmarks er kritiske, men agentiske benchmarks er brutt! Eksempel: WebArena markerer "45+8 minutter" på en varighetsberegningsoppgave som riktig (reelt svar: "63 minutter"). Andre referanseindekser feilestimerer agentkompetanse med 1,6-100 %. Hvorfor er evalueringsgrunnlaget for agentiske systemer skjøre? Se nedenfor for tråd og lenker 1/8
1,01K