有没有任何公共的基准测试工具用于 AI 审计代理?能够比较可用的产品会非常有用。 虽然我相信 mf 很快就会学会如何操控基准测试。