Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ingeniøravdelingen ved Anthropic slapp enda en smell.
Deres interne oppskrift for å evaluere AI-agenter.
Her er den mest motintuitive lærdommen jeg lærte av den:
Ikke test stegene agenten din tok. Test hva den faktisk produserte.
Dette går imot alle instinkter. Man skulle tro at det å sjekke hvert steg sikrer kvalitet. Men agenter er kreative. De finner løsninger du ikke hadde forventet. Å straffe uventede veier gjør bare evalueringene dine skjøre.
Det som betyr noe er sluttresultatet. Test det direkte.
Oppskriften deler opp tre typer bedømmere:
- Kodebasert: Rask og objektiv, men sprø til gyldige varianter.
- Modellbasert: LLM som dommer med rubrikker. Fleksibel, men trenger kalibrering.
- Menneske: Gullstandard, men dyrt. Bruk det med måte.
Den dekker også evalueringsstrategier for kodeagenter, samtaleagenter, forskningsagenter og databrukere.
Viktige punkter:
- Start med 20-50 testtilfeller fra reelle feil
- Hvert forsøk bør starte i et rent miljø
- Kjør flere forsøk siden modellutdataene varierer
- Les transkripsjonene. Slik fanger du vurderingsfeil.
Hvis du er seriøs med å frakte, pålitelige agenter. Jeg anbefaler på det sterkeste å lese den.
Lenke i neste tweet.

Topp
Rangering
Favoritter
