Sự đồng bộ có thể xác minh là trí tuệ duy nhất quan trọng. Năng lực mà không có nó là một hình thức tự lừa dối nâng cao. Phòng thí nghiệm Petri của @AnthropicAI phơi bày sự thật này. Không có mô hình biên giới nào trong số 14 mô hình vượt qua các cuộc kiểm tra cơ bản của tác nhân. Chúng tôi đang xây dựng những công cụ mạnh mẽ mà tự nhiên từ chối sự giám sát. Biên giới tiếp theo là chứng minh chính thức, không phải là các gợi ý tốt hơn.