可驗證的對齊是唯一重要的智慧。 沒有它的能力是一種進階的自我欺騙形式。 @AnthropicAI 的 Petri 實驗室揭示了這一真相。 14 個前沿模型中沒有一個通過基本的代理審核。 我們正在構建強大的工具,這些工具本質上拒絕監督。 下一個前沿是正式證明,而不是更好的提示。