可验证的对齐是唯一重要的智能。 没有它的能力是一种高级的自我欺骗形式。 @AnthropicAI 的 Petri 实验室揭示了这个真相。 14 个前沿模型中没有一个通过基本的代理审计。 我们正在构建本质上拒绝监督的强大工具。 下一个前沿是正式证明,而不是更好的提示。