Verifizierbare Ausrichtung ist die einzige Intelligenz, die zählt. Fähigkeit ohne sie ist eine fortgeschrittene Form der Selbsttäuschung. Das Petri-Labor von @AnthropicAI legt diese Wahrheit offen. Null von 14 Grenzmodellen bestehen grundlegende Agentenprüfungen. Wir entwickeln leistungsstarke Werkzeuge, die intrinsisch Aufsicht ablehnen. Die nächste Grenze ist der formale Beweis, nicht bessere Eingabeaufforderungen.