Etter hvert som evals for modeller blir mettet, vil "evals" for agenter bli den neste grensen for det som betyr noe Vil også være vanskeligere å skaffe siden det er så spesifikt/oppgavebasert Er Devin bedre enn Amp til å refaktorere? Er Codex bedre enn Claude Code for feilsøking?
250