RT @levie: Agent evals er et helt nytt ballspill. Akkurat nå opererer de fleste AI-evalueringer innenfor en selvstendig verden av modellen. Denne v...