Alinierea verificabilă este singura inteligență care contează. Capacitatea fără ea este o formă avansată de auto-înșelăciune. Laboratorul Petri al lui @AnthropicAI expune acest adevăr. Zero din 14 modele de frontieră trec auditurile agenților de bază. Construim instrumente puternice care resping în mod intrinsec supravegherea. Următoarea frontieră este dovada formală, nu indicațiile mai bune.