Ingeniøravdelingen ved Anthropic slapp enda en smell. Deres interne oppskrift for å evaluere AI-agenter. Her er den mest motintuitive lærdommen jeg lærte av den: Ikke test stegene agenten din tok. Test hva den faktisk produserte. Dette går imot alle instinkter. Man skulle tro at det å sjekke hvert steg sikrer kvalitet. Men agenter er kreative. De finner løsninger du ikke hadde forventet. Å straffe uventede veier gjør bare evalueringene dine skjøre. Det som betyr noe er sluttresultatet. Test det direkte. Oppskriften deler opp tre typer bedømmere: - Kodebasert: Rask og objektiv, men sprø til gyldige varianter. - Modellbasert: LLM som dommer med rubrikker. Fleksibel, men trenger kalibrering. - Menneske: Gullstandard, men dyrt. Bruk det med måte. Den dekker også evalueringsstrategier for kodeagenter, samtaleagenter, forskningsagenter og databrukere. Viktige punkter: - Start med 20-50 testtilfeller fra reelle feil - Hvert forsøk bør starte i et rent miljø - Kjør flere forsøk siden modellutdataene varierer - Les transkripsjonene. Slik fanger du vurderingsfeil. Hvis du er seriøs med å frakte, pålitelige agenter. Jeg anbefaler på det sterkeste å lese den. Lenke i neste tweet.