A engenharia da Anthropic lançou mais uma pérola. O seu manual interno para avaliar agentes de IA. Aqui está a lição mais contra-intuitiva que aprendi com isso: Não teste os passos que o seu agente tomou. Teste o que ele realmente produziu. Isto vai contra todos os instintos. Você pensaria que verificar cada passo garante qualidade. Mas os agentes são criativos. Eles encontram soluções que você não antecipou. Punir caminhos inesperados apenas torna as suas avaliações frágeis. O que importa é o resultado final. Teste isso diretamente. O manual divide três tipos de avaliadores: - Baseado em código: Rápido e objetivo, mas frágil a variações válidas. - Baseado em modelo: LLM-como-juiz com rubricas. Flexível, mas precisa de calibração. - Humano: Padrão de ouro, mas caro. Use com moderação. Ele também cobre estratégias de avaliação para agentes de codificação, agentes conversacionais, agentes de pesquisa e agentes de uso de computador. Principais conclusões: - Comece com 20-50 casos de teste de falhas reais - Cada teste deve começar de um ambiente limpo - Realize múltiplos testes, uma vez que as saídas do modelo variam - Leia as transcrições. É assim que você captura erros de avaliação. Se você está sério sobre o envio de agentes confiáveis. Recomendo fortemente a leitura.