Вирівнювання, яке можна перевірити, – це єдина розвідувальна інформація, яка має значення. Здатність без нього є розвиненою формою самообману. Лабораторія Петрі @AnthropicAI викриває цю правду. Жодна з 14 моделей Frontier проходить базовий аудит агентів. Ми створюємо потужні інструменти, які за своєю суттю відкидають контроль. Наступний рубіж – це формальні докази, а не кращі підказки.