L'ingénierie chez Anthropic a encore sorti un autre chef-d'œuvre. Leur manuel interne pour évaluer les agents IA. Voici la leçon la plus contre-intuitive que j'en ai tirée : Ne testez pas les étapes que votre agent a prises. Testez ce qu'il a réellement produit. Cela va à l'encontre de chaque instinct. On pourrait penser que vérifier chaque étape garantit la qualité. Mais les agents sont créatifs. Ils trouvent des solutions que vous n'aviez pas anticipées. Punir des chemins inattendus rend simplement vos évaluations fragiles. Ce qui compte, c'est le résultat final. Testez cela directement. Le manuel décompose trois types de correcteurs : - Basé sur le code : Rapide et objectif, mais fragile face aux variations valides. - Basé sur le modèle : LLM-en-juge avec des rubriques. Flexible, mais nécessite une calibration. - Humain : Standard d'or, mais coûteux. À utiliser avec parcimonie. Il couvre également des stratégies d'évaluation pour les agents de codage, les agents conversationnels, les agents de recherche et les agents d'utilisation informatique. Points clés à retenir : - Commencez avec 20-50 cas de test issus d'échecs réels - Chaque essai doit commencer dans un environnement propre - Effectuez plusieurs essais car les sorties du modèle varient - Lisez les transcriptions. C'est ainsi que vous attrapez les bugs de notation. Si vous êtes sérieux au sujet de l'expédition d'agents fiables. Je recommande vivement de le lire. Lien dans le tweet suivant.