Ingineria de la Anthropic a lansat un alt succes. Manualul lor intern pentru evaluarea agenților AI. Iată cea mai contraintuitivă lecție pe care am învățat-o din asta: Nu testa pașii pe care i-a făcut agentul tău. Testează ce a produs de fapt. Acest lucru contravine oricărui instinct. Te-ai gândi că verificarea fiecărui pas asigură calitatea. Dar agenții sunt creativi. Ei găsesc soluții la care nu te-ai așteptat. Pedepsirea căilor neașteptate face ca evaluările tale să devină fragile. Ceea ce contează este rezultatul final. Testează asta direct. Playbook-ul împarte trei tipuri de evaluatori: - Bazat pe cod: Rapid și obiectiv, dar fragil la variații valide. - Bazat pe modele: LLM ca judecător cu rubrici de evaluare. Flexibil, dar necesită calibrare. - Om: Standardul de aur, dar scump. Folosește cu moderație. De asemenea, acoperă strategii de evaluare pentru agenții de programare, agenți conversaționali, agenți de cercetare și agenți de utilizare a calculatorului. Concluzii cheie: - Să începem cu 20-50 de cazuri de testare din eșecuri reale - Fiecare studiu ar trebui să înceapă dintr-un mediu curat - Rularea mai multor încercări, deoarece rezultatele modelului variază - Citește transcrierile. Așa se prind bug-urile de gradare. Dacă ești serios în privința expedierii, agenți de încredere. Recomand cu căldură să o citești. Link în următorul tweet.