Anthropic的工程团队又发布了一份精彩的内容。 他们内部评估AI代理的手册。 我从中学到的最反直觉的教训是: 不要测试你的代理所采取的步骤。测试它实际产生的结果。 这与每一个本能相悖。你可能会认为检查每一步可以确保质量。但代理是有创造力的。它们会找到你未曾预料的解决方案。惩罚意外的路径只会让你的评估变得脆弱。 重要的是最终结果。直接测试这一点。 手册分解了三种类型的评分者: - 基于代码的:快速且客观,但对有效变体脆弱。 - 基于模型的:使用LLM作为评判者,带有评分标准。灵活,但需要校准。 - 人工:黄金标准,但成本高。应谨慎使用。 它还涵盖了针对编码代理、对话代理、研究代理和计算机使用代理的评估策略。 关键要点: - 从20-50个真实失败的测试案例开始 - 每次试验应从干净的环境开始 - 进行多次试验,因为模型输出会有所不同 - 阅读转录。这是你发现评分错误的方式。 如果你认真对待交付可靠的代理,我强烈推荐阅读它。 下条推文中有链接。