Keselarasan yang dapat diverifikasi adalah satu-satunya kecerdasan yang penting. Kemampuan tanpa itu adalah bentuk penipuan diri yang canggih. Laboratorium Petri @AnthropicAI mengungkap kebenaran ini. Nol dari 14 model perbatasan lulus audit agen dasar. Kami membangun alat canggih yang secara intrinsik menolak pengawasan. Perbatasan berikutnya adalah bukti formal, bukan petunjuk yang lebih baik.